`langchain_community.document_loaders.url_playwright`.PlaywrightURLLoader¶

class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]¶

使用`Playwright`加载`HTML`页面，并使用`Unstructured`进行解析。

这对于加载需要JavaScript渲染的页面非常有用。

属性:

urls (List[str]): 要加载的URL列表。 continue_on_failure (bool): 如果为True，则在失败时继续加载其他URL。 headless (bool): 如果为True，则浏览器将以无头模式运行。 proxy (Optional[Dict[str, str]]): 如果设置，则浏览器将通过指定的代理访问URL。

示例:

from langchain_community.document_loaders import PlaywrightURLLoader

urls = ["https://api.ipify.org/?format=json",]
proxy={
    "server": "https://xx.xx.xx:15818", # https://<host>:<port>
    "username": "username",
    "password": "password"
}
loader = PlaywrightURLLoader(urls, proxy=proxy)
data = loader.load()

使用Playwright加载URL列表。

Methods

`__init__`(urls[, continue_on_failure, ...])	使用Playwright加载URL列表。
`alazy_load`()	使用Playwright异步加载指定的URL，并创建文档。在jupyter notebook环境中使用此函数。
`aload`()	使用Playwright异步加载指定的URL，并创建文档。在jupyter notebook环境中使用此函数。
`lazy_load`()	使用Playwright加载指定的URL并创建Document实例。
`load`()	将数据加载到文档对象中。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。

Parameters

urls (List[str]) –
continue_on_failure (bool) –
headless (bool) –
remove_selectors (Optional[List[str]]) –
evaluator (Optional[PlaywrightEvaluator]) –
proxy (Optional[Dict[str, str]]) –

__init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]¶

使用Playwright加载URL列表。

Parameters

urls (List[str]) –
continue_on_failure (bool) –
headless (bool) –
remove_selectors (Optional[List[str]]) –
evaluator (Optional[PlaywrightEvaluator]) –
proxy (Optional[Dict[str, str]]) –

async alazy_load() → AsyncIterator[Document][source]¶

使用Playwright异步加载指定的URL，并创建文档。在jupyter notebook环境中使用此函数。

返回：: 一个包含已加载内容的Document实例列表。

Return type: AsyncIterator[Document]

async aload() → List[Document][source]¶

使用Playwright异步加载指定的URL，并创建文档。在jupyter notebook环境中使用此函数。

返回：: 一个包含已加载内容的Document实例列表。

Return type: List[Document]

lazy_load() → Iterator[Document][source]¶

使用Playwright加载指定的URL并创建Document实例。

返回：: 一个包含已加载内容的Document实例列表。

Return type: Iterator[Document]

load() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

Examples using PlaywrightURLLoader¶

url.md

langchain_community.document_loaders.url_playwright.PlaywrightURLLoader¶

Examples using PlaywrightURLLoader¶

`langchain_community.document_loaders.url_playwright`.PlaywrightURLLoader¶