langchain_community.document_loaders.url_playwright.PlaywrightURLLoader

class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]

使用`Playwright`加载`HTML`页面,并使用`Unstructured`进行解析。

这对于加载需要JavaScript渲染的页面非常有用。

属性:

urls (List[str]): 要加载的URL列表。 continue_on_failure (bool): 如果为True,则在失败时继续加载其他URL。 headless (bool): 如果为True,则浏览器将以无头模式运行。 proxy (Optional[Dict[str, str]]): 如果设置,则浏览器将通过指定的代理访问URL。

示例:
from langchain_community.document_loaders import PlaywrightURLLoader

urls = ["https://api.ipify.org/?format=json",]
proxy={
    "server": "https://xx.xx.xx:15818", # https://<host>:<port>
    "username": "username",
    "password": "password"
}
loader = PlaywrightURLLoader(urls, proxy=proxy)
data = loader.load()

使用Playwright加载URL列表。

Methods

__init__(urls[, continue_on_failure, ...])

使用Playwright加载URL列表。

alazy_load()

使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。

aload()

使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。

lazy_load()

使用Playwright加载指定的URL并创建Document实例。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

Parameters
  • urls (List[str]) –

  • continue_on_failure (bool) –

  • headless (bool) –

  • remove_selectors (Optional[List[str]]) –

  • evaluator (Optional[PlaywrightEvaluator]) –

  • proxy (Optional[Dict[str, str]]) –

__init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]

使用Playwright加载URL列表。

Parameters
  • urls (List[str]) –

  • continue_on_failure (bool) –

  • headless (bool) –

  • remove_selectors (Optional[List[str]]) –

  • evaluator (Optional[PlaywrightEvaluator]) –

  • proxy (Optional[Dict[str, str]]) –

async alazy_load() AsyncIterator[Document][source]

使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。

返回:

一个包含已加载内容的Document实例列表。

Return type

AsyncIterator[Document]

async aload() List[Document][source]

使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。

返回:

一个包含已加载内容的Document实例列表。

Return type

List[Document]

lazy_load() Iterator[Document][source]

使用Playwright加载指定的URL并创建Document实例。

返回:

一个包含已加载内容的Document实例列表。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using PlaywrightURLLoader