SeleniumURLLoader#
- class langchain_community.document_loaders.url_selenium.SeleniumURLLoader(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: str | None = None, executable_path: str | None = None, headless: bool = True, arguments: List[str] = [])[来源]#
使用Selenium加载HTML页面,并使用Unstructured进行解析。
这对于加载需要JavaScript渲染的页面非常有用。
- Parameters:
urls (列表[字符串])
continue_on_failure (bool)
浏览器 (字面量['chrome', 'firefox'])
binary_location (str | None)
executable_path (str | None)
headless (bool)
arguments (List[str])
- urls#
要加载的URL列表。
- Type:
列表[str]
- continue_on_failure#
如果为True,在失败时继续加载其他URL。
- Type:
布尔
- browser#
使用的浏览器,可以是‘chrome’或‘firefox’。
- Type:
字符串
- binary_location#
浏览器二进制文件的位置。
- Type:
可选[str]
- executable_path#
浏览器可执行文件的路径。
- Type:
可选[str]
- headless#
如果为True,浏览器将以无头模式运行。
- Type:
布尔
- arguments[List, str]#
传递给浏览器的参数列表。
使用Selenium和unstructured加载URL列表。
方法
__init__
(urls[, continue_on_failure, ...])使用Selenium和unstructured加载URL列表。
文档的懒加载器。
aload
()将数据加载到Document对象中。
一个用于文档的懒加载器。
load
()使用Selenium加载指定的URL并创建Document实例。
load_and_split
([text_splitter])加载文档并将其分割成块。
- __init__(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: str | None = None, executable_path: str | None = None, headless: bool = True, arguments: List[str] = [])[source]#
使用Selenium和unstructured加载URL列表。
- Parameters:
urls (列表[字符串])
continue_on_failure (bool)
浏览器 (字面量['chrome', 'firefox'])
binary_location (str | None)
executable_path (str | None)
headless (bool)
arguments (List[str])
- load() List[Document] [来源]#
使用Selenium加载指定的URL并创建Document实例。
- Returns:
带有加载内容的Document实例列表。
- Return type:
列表[Document]
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 SeleniumURLLoader 的示例