SeleniumURLLoader#

class langchain_community.document_loaders.url_selenium.SeleniumURLLoader(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: str | None = None, executable_path: str | None = None, headless: bool = True, arguments: List[str] = [])[来源]#

使用Selenium加载HTML页面,并使用Unstructured进行解析。

这对于加载需要JavaScript渲染的页面非常有用。

Parameters:
  • urls (列表[字符串])

  • continue_on_failure (bool)

  • 浏览器 (字面量['chrome', 'firefox'])

  • binary_location (str | None)

  • executable_path (str | None)

  • headless (bool)

  • arguments (List[str])

urls#

要加载的URL列表。

Type:

列表[str]

continue_on_failure#

如果为True,在失败时继续加载其他URL。

Type:

布尔

browser#

使用的浏览器,可以是‘chrome’或‘firefox’。

Type:

字符串

binary_location#

浏览器二进制文件的位置。

Type:

可选[str]

executable_path#

浏览器可执行文件的路径。

Type:

可选[str]

headless#

如果为True,浏览器将以无头模式运行。

Type:

布尔

arguments[List, str]#

传递给浏览器的参数列表。

使用Selenium和unstructured加载URL列表。

方法

__init__(urls[, continue_on_failure, ...])

使用Selenium和unstructured加载URL列表。

alazy_load()

文档的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

一个用于文档的懒加载器。

load()

使用Selenium加载指定的URL并创建Document实例。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: str | None = None, executable_path: str | None = None, headless: bool = True, arguments: List[str] = [])[source]#

使用Selenium和unstructured加载URL列表。

Parameters:
  • urls (列表[字符串])

  • continue_on_failure (bool)

  • 浏览器 (字面量['chrome', 'firefox'])

  • binary_location (str | None)

  • executable_path (str | None)

  • headless (bool)

  • arguments (List[str])

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document]#

文档的懒加载器。

Return type:

迭代器[文档]

load() List[Document][来源]#

使用Selenium加载指定的URL并创建Document实例。

Returns:

带有加载内容的Document实例列表。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用 SeleniumURLLoader 的示例