PlaywrightURLLoader#

class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: List[str] | None = None, evaluator: PlaywrightEvaluator | None = None, proxy: Dict[str, str] | None = None)[来源]#

使用Playwright加载HTML页面,并使用Unstructured进行解析。

这对于加载需要JavaScript渲染的页面非常有用。

Parameters:
  • urls (列表[字符串])

  • continue_on_failure (bool)

  • headless (bool)

  • remove_selectors (列表[字符串] | )

  • evaluator (PlaywrightEvaluator | None)

  • proxy (Dict[str, str] | None)

urls#

要加载的URL列表。

Type:

列表[str]

continue_on_failure#

如果为True,在失败时继续加载其他URL。

Type:

布尔

headless#

如果为True,浏览器将以无头模式运行。

Type:

布尔

proxy#

如果设置,浏览器将通过指定的代理访问URL。

Type:

可选[字典[str, str]]

示例

from langchain_community.document_loaders import PlaywrightURLLoader

urls = ["https://api.ipify.org/?format=json",]
proxy={
    "server": "https://xx.xx.xx:15818", # https://<host>:<port>
    "username": "username",
    "password": "password"
}
loader = PlaywrightURLLoader(urls, proxy=proxy)
data = loader.load()

使用Playwright加载URL列表。

方法

__init__(urls[, continue_on_failure, ...])

使用Playwright加载URL列表。

alazy_load()

使用 Playwright 加载指定的 URL 并异步创建文档。

aload()

使用Playwright加载指定的URL并异步创建文档。

lazy_load()

使用 Playwright 加载指定的 URL 并创建 Document 实例。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: List[str] | None = None, evaluator: PlaywrightEvaluator | None = None, proxy: Dict[str, str] | None = None)[source]#

使用Playwright加载URL列表。

Parameters:
  • urls (列表[字符串])

  • continue_on_failure (bool)

  • headless (bool)

  • remove_selectors (列表[字符串] | )

  • evaluator (PlaywrightEvaluator | None)

  • proxy (Dict[str, str] | None)

async alazy_load() AsyncIterator[Document][source]#

使用Playwright加载指定的URL并异步创建文档。 在jupyter notebook环境中使用此函数。

Returns:

带有加载内容的Document实例列表。

Return type:

AsyncIterator[Document]

async aload() List[Document][source]#

使用Playwright加载指定的URL并异步创建文档。 在jupyter notebook环境中使用此函数。

Returns:

带有加载内容的Document实例列表。

Return type:

列表[文档]

lazy_load() Iterator[Document][source]#

使用Playwright加载指定的URL并创建Document实例。

Returns:

带有加载内容的Document实例列表。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用 PlaywrightURLLoader 的示例