Apify数据集加载器#

class langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader[source]#

基础类:BaseLoader, BaseModel

Apify网络抓取、爬取和数据提取平台加载数据集。

详情请参阅 https://docs.apify.com/platform/integrations/langchain

示例

from langchain_community.document_loaders import ApifyDatasetLoader
from langchain_core.documents import Document

loader = ApifyDatasetLoader(
    dataset_id="YOUR-DATASET-ID",
    dataset_mapping_function=lambda dataset_item: Document(
        page_content=dataset_item["text"], metadata={"source": dataset_item["url"]}
    ),
)
documents = loader.load()

使用Apify数据集ID和映射函数初始化加载器。

Parameters:
  • dataset_id (str) – Apify 平台上数据集的 ID。

  • dataset_mapping_function (Callable) – 一个函数,它接受一个字典(一个Apify数据集项)并将其转换为Document类的实例。

param apify_client: Any [Required]#

apify-client Python 包中的 ApifyClient 类的实例。

param dataset_id: str [Required]#

Apify 平台上数据集的 ID。

param dataset_mapping_function: Callable[[Dict], Document] [Required]#

一个自定义函数,它接受一个单一的字典(一个Apify数据集项)并将其转换为Document类的实例。

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document]#

文档的懒加载器。

Return type:

迭代器[文档]

load() List[Document][来源]#

加载文档。

Return type:

列表[文档]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用 ApifyDatasetLoader 的示例