langchain_community.document_loaders.firecrawl
.FireCrawlLoader¶
- class langchain_community.document_loaders.firecrawl.FireCrawlLoader(url: str, *, api_key: Optional[str] = None, mode: Literal['crawl', 'scrape'] = 'crawl', params: Optional[dict] = None)[source]¶
使用FireCrawl将网页加载为文档。
- 必须安装Python包`firecrawl`并拥有FireCrawl API密钥。请参见
使用API密钥和URL进行初始化。
- 参数:
url: 要爬取的URL。 api_key: Firecrawl API密钥。如果未指定,将从环境变量FIREWALL_API_KEY中读取。获取API密钥 mode: 加载程序运行的模式。默认为“crawl”。
选项包括“scrape”(单个URL)和 “crawl”(所有可访问的子页面)。
- params: 传递给Firecrawl API的参数。
示例包括crawlerOptions。 有关更多详细信息,请访问:https://github.com/mendableai/firecrawl-py
Methods
__init__
(url, *[, api_key, mode, params])使用API密钥和URL进行初始化。
一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
一个用于文档的惰性加载器。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
url (str) –
api_key (Optional[str]) –
mode (Literal['crawl', 'scrape']) –
params (Optional[dict]) –
- __init__(url: str, *, api_key: Optional[str] = None, mode: Literal['crawl', 'scrape'] = 'crawl', params: Optional[dict] = None)[source]¶
使用API密钥和URL进行初始化。
- 参数:
url: 要爬取的URL。 api_key: Firecrawl API密钥。如果未指定,将从环境变量FIREWALL_API_KEY中读取。获取API密钥 mode: 加载程序运行的模式。默认为“crawl”。
选项包括“scrape”(单个URL)和 “crawl”(所有可访问的子页面)。
- params: 传递给Firecrawl API的参数。
示例包括crawlerOptions。 有关更多详细信息,请访问:https://github.com/mendableai/firecrawl-py
- Parameters
url (str) –
api_key (Optional[str]) –
mode (Literal['crawl', 'scrape']) –
params (Optional[dict]) –
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]