`langchain_community.document_loaders.spider`.SpiderLoader¶

class langchain_community.document_loaders.spider.SpiderLoader(url: str, *, api_key: Optional[str] = None, mode: Literal['scrape', 'crawl'] = 'scrape', params: Optional[dict] = None)[source]¶

使用Spider AI将网页加载为文档。

必须安装Python包`spider-client`并拥有Spider API密钥。更多信息请参见https://spider.cloud。

初始化API密钥和URL。

参数：

url: 要处理的URL。 api_key: Spider API密钥。如果未指定，将从环境变量`SPIDER_API_KEY`中读取。 mode: 加载程序运行的模式。默认为”scrape”。

选项包括”scrape”（单个页面）和”crawl”（随后深入爬取子页面）。

params: Spider API的额外参数。

Methods

`__init__`(url, *[, api_key, mode, params])	初始化API密钥和URL。
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`lazy_load`()	根据指定的模式加载文档。
`load`()	将数据加载到文档对象中。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。

Parameters

url (str) –
api_key (Optional[str]) –
mode (Literal['scrape', 'crawl']) –
params (Optional[dict]) –

__init__(url: str, *, api_key: Optional[str] = None, mode: Literal['scrape', 'crawl'] = 'scrape', params: Optional[dict] = None)[source]¶

初始化API密钥和URL。

参数：

url: 要处理的URL。 api_key: Spider API密钥。如果未指定，将从环境变量`SPIDER_API_KEY`中读取。 mode: 加载程序运行的模式。默认为”scrape”。

选项包括”scrape”（单个页面）和”crawl”（随后深入爬取子页面）。

params: Spider API的额外参数。

Parameters

url (str) –
api_key (Optional[str]) –
mode (Literal['scrape', 'crawl']) –
params (Optional[dict]) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

lazy_load() → Iterator[Document][source]¶

根据指定的模式加载文档。

Return type: Iterator[Document]

load() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

langchain_community.document_loaders.spider.SpiderLoader¶

`langchain_community.document_loaders.spider`.SpiderLoader¶