SeleniumURLLoader#

class langchain_community.document_loaders.url_selenium.SeleniumURLLoader(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: str | None = None, executable_path: str | None = None, headless: bool = True, arguments: List[str] = [])[来源]#

使用Selenium加载HTML页面，并使用Unstructured进行解析。

这对于加载需要JavaScript渲染的页面非常有用。

Parameters:

urls (列表[字符串])
continue_on_failure (bool)
浏览器 (字面量['chrome', 'firefox'])
binary_location (str | None)
executable_path (str | None)
headless (bool)
arguments (List[str])

urls#

要加载的URL列表。

Type:: 列表[str]

continue_on_failure#

如果为True，在失败时继续加载其他URL。

Type:: 布尔

browser#

使用的浏览器，可以是‘chrome’或‘firefox’。

Type:: 字符串

binary_location#

浏览器二进制文件的位置。

Type:: 可选[str]

executable_path#

浏览器可执行文件的路径。

Type:: 可选[str]

headless#

如果为True，浏览器将以无头模式运行。

Type:: 布尔

arguments[List, str]#: 传递给浏览器的参数列表。

使用Selenium和unstructured加载URL列表。

方法

`__init__`(urls[, continue_on_failure, ...])	使用Selenium和unstructured加载URL列表。
`alazy_load`()	文档的懒加载器。
`aload`()	将数据加载到Document对象中。
`lazy_load`()	一个用于文档的懒加载器。
`load`()	使用Selenium加载指定的URL并创建Document实例。
`load_and_split`([text_splitter])	加载文档并将其分割成块。

__init__(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: str | None = None, executable_path: str | None = None, headless: bool = True, arguments: List[str] = [])[source]#

使用Selenium和unstructured加载URL列表。

Parameters:

urls (列表[字符串])
continue_on_failure (bool)
浏览器 (字面量['chrome', 'firefox'])
binary_location (str | None)
executable_path (str | None)
headless (bool)
arguments (List[str])

async alazy_load() → AsyncIterator[Document]#

文档的懒加载器。

Return type:: AsyncIterator[Document]

async aload() → list[Document]#

将数据加载到Document对象中。

Return type:: 列表[Document]

lazy_load() → Iterator[Document]#

文档的懒加载器。

Return type:: 迭代器[文档]

load() → List[Document][来源]#

使用Selenium加载指定的URL并创建Document实例。

Returns:: 带有加载内容的Document实例列表。
Return type:: 列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) → list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用！

Parameters:: text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
Returns:: 文档列表。
Return type:: 列表[Document]

使用 SeleniumURLLoader 的示例

URL