PlaywrightURLLoader#
- class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: List[str] | None = None, evaluator: PlaywrightEvaluator | None = None, proxy: Dict[str, str] | None = None)[来源]#
使用Playwright加载HTML页面,并使用Unstructured进行解析。
这对于加载需要JavaScript渲染的页面非常有用。
- Parameters:
urls (列表[字符串])
continue_on_failure (bool)
headless (bool)
remove_selectors (列表[字符串] | 无)
evaluator (PlaywrightEvaluator | None)
proxy (Dict[str, str] | None)
- urls#
要加载的URL列表。
- Type:
列表[str]
- continue_on_failure#
如果为True,在失败时继续加载其他URL。
- Type:
布尔
- headless#
如果为True,浏览器将以无头模式运行。
- Type:
布尔
- proxy#
如果设置,浏览器将通过指定的代理访问URL。
- Type:
可选[字典[str, str]]
示例
from langchain_community.document_loaders import PlaywrightURLLoader urls = ["https://api.ipify.org/?format=json",] proxy={ "server": "https://xx.xx.xx:15818", # https://<host>:<port> "username": "username", "password": "password" } loader = PlaywrightURLLoader(urls, proxy=proxy) data = loader.load()
使用Playwright加载URL列表。
方法
__init__
(urls[, continue_on_failure, ...])使用Playwright加载URL列表。
使用 Playwright 加载指定的 URL 并异步创建文档。
aload
()使用Playwright加载指定的URL并异步创建文档。
使用 Playwright 加载指定的 URL 并创建 Document 实例。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载文档并将其分割成块。
- __init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: List[str] | None = None, evaluator: PlaywrightEvaluator | None = None, proxy: Dict[str, str] | None = None)[source]#
使用Playwright加载URL列表。
- Parameters:
urls (列表[字符串])
continue_on_failure (bool)
headless (bool)
remove_selectors (列表[字符串] | 无)
evaluator (PlaywrightEvaluator | None)
proxy (Dict[str, str] | None)
- async alazy_load() AsyncIterator[Document] [source]#
使用Playwright加载指定的URL并异步创建文档。 在jupyter notebook环境中使用此函数。
- Returns:
带有加载内容的Document实例列表。
- Return type:
AsyncIterator[Document]
- async aload() List[Document] [source]#
使用Playwright加载指定的URL并异步创建文档。 在jupyter notebook环境中使用此函数。
- Returns:
带有加载内容的Document实例列表。
- Return type:
列表[文档]
- lazy_load() Iterator[Document] [source]#
使用Playwright加载指定的URL并创建Document实例。
- Returns:
带有加载内容的Document实例列表。
- Return type:
迭代器[文档]
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 PlaywrightURLLoader 的示例