非结构化HTML评估器#

class langchain_community.document_loaders.url_playwright.UnstructuredHtmlEvaluator(remove_selectors: List[str] | None = None)[source]#

使用unstructured库评估页面HTML内容。

初始化 UnstructuredHtmlEvaluator。

方法

__init__([remove_selectors])

初始化 UnstructuredHtmlEvaluator。

evaluate(page, browser, response)

同步处理页面的HTML内容。

evaluate_async(page, browser, response)

异步处理页面的HTML内容。

Parameters:

remove_selectors (列表[字符串] | )

__init__(remove_selectors: List[str] | None = None)[source]#

初始化 UnstructuredHtmlEvaluator。

Parameters:

remove_selectors (列表[字符串] | )

evaluate(page: Page, browser: Browser, response: Response) str[来源]#

同步处理页面的HTML内容。

Parameters:
  • page (Page)

  • browser (浏览器)

  • response (Response)

Return type:

字符串

async evaluate_async(page: AsyncPage, browser: AsyncBrowser, response: AsyncResponse) str[source]#

异步处理页面的HTML内容。

Parameters:
  • page (AsyncPage)

  • browser (AsyncBrowser)

  • response (AsyncResponse)

Return type:

字符串