Apify数据集加载器#
- class langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader[source]#
基础类:
BaseLoader
,BaseModel
从Apify网络抓取、爬取和数据提取平台加载数据集。
详情请参阅 https://docs.apify.com/platform/integrations/langchain
示例
from langchain_community.document_loaders import ApifyDatasetLoader from langchain_core.documents import Document loader = ApifyDatasetLoader( dataset_id="YOUR-DATASET-ID", dataset_mapping_function=lambda dataset_item: Document( page_content=dataset_item["text"], metadata={"source": dataset_item["url"]} ), ) documents = loader.load()
使用Apify数据集ID和映射函数初始化加载器。
- Parameters:
dataset_id (str) – Apify 平台上数据集的 ID。
dataset_mapping_function (Callable) – 一个函数,它接受一个字典(一个Apify数据集项)并将其转换为Document类的实例。
- param apify_client: Any [Required]#
apify-client Python 包中的 ApifyClient 类的实例。
- param dataset_id: str [Required]#
Apify 平台上数据集的 ID。
- param dataset_mapping_function: Callable[[Dict], Document] [Required]#
一个自定义函数,它接受一个单一的字典(一个Apify数据集项)并将其转换为Document类的实例。
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 ApifyDatasetLoader 的示例