langchain_community.document_loaders.url_playwright
.PlaywrightURLLoader¶
- class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]¶
使用`Playwright`加载`HTML`页面,并使用`Unstructured`进行解析。
这对于加载需要JavaScript渲染的页面非常有用。
- 属性:
urls (List[str]): 要加载的URL列表。 continue_on_failure (bool): 如果为True,则在失败时继续加载其他URL。 headless (bool): 如果为True,则浏览器将以无头模式运行。 proxy (Optional[Dict[str, str]]): 如果设置,则浏览器将通过指定的代理访问URL。
- 示例:
from langchain_community.document_loaders import PlaywrightURLLoader urls = ["https://api.ipify.org/?format=json",] proxy={ "server": "https://xx.xx.xx:15818", # https://<host>:<port> "username": "username", "password": "password" } loader = PlaywrightURLLoader(urls, proxy=proxy) data = loader.load()
使用Playwright加载URL列表。
Methods
__init__
(urls[, continue_on_failure, ...])使用Playwright加载URL列表。
使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。
aload
()使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。
使用Playwright加载指定的URL并创建Document实例。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
urls (List[str]) –
continue_on_failure (bool) –
headless (bool) –
remove_selectors (Optional[List[str]]) –
evaluator (Optional[PlaywrightEvaluator]) –
proxy (Optional[Dict[str, str]]) –
- __init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]¶
使用Playwright加载URL列表。
- Parameters
urls (List[str]) –
continue_on_failure (bool) –
headless (bool) –
remove_selectors (Optional[List[str]]) –
evaluator (Optional[PlaywrightEvaluator]) –
proxy (Optional[Dict[str, str]]) –
- async alazy_load() AsyncIterator[Document] [source]¶
使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。
- 返回:
一个包含已加载内容的Document实例列表。
- Return type
AsyncIterator[Document]
- async aload() List[Document] [source]¶
使用Playwright异步加载指定的URL,并创建文档。 在jupyter notebook环境中使用此函数。
- 返回:
一个包含已加载内容的Document实例列表。
- Return type
List[Document]
- lazy_load() Iterator[Document] [source]¶
使用Playwright加载指定的URL并创建Document实例。
- 返回:
一个包含已加载内容的Document实例列表。
- Return type
Iterator[Document]
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]