HuggingFace数据集加载器#

class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: str | None = None, data_dir: str | None = None, data_files: str | Sequence[str] | Mapping[str, str | Sequence[str]] | None = None, cache_dir: str | None = None, keep_in_memory: bool | None = None, save_infos: bool = False, use_auth_token: bool | str | None = None, num_proc: int | None = None)[source]#

Hugging Face Hub加载数据集。

初始化 HuggingFaceDatasetLoader。

Parameters:
  • path (str) – 数据集的路径或名称。

  • page_content_column (str) – 页面内容列名称。默认为“text”。

  • name (str | None) – 数据集配置的名称。

  • data_dir (str | None) – 数据集配置的数据目录。

  • data_files (str | Sequence[str] | Mapping[str, str | Sequence[str]] | None) – 源数据文件的路径。

  • cache_dir (str | None) – 用于读取/写入数据的目录。

  • keep_in_memory (bool | None) – 是否在内存中复制数据集。

  • save_infos (bool) – 保存数据集信息(校验和/大小/分割/…)。 默认值为 False。

  • use_auth_token (bool | str | None) – 用于访问数据集中心远程文件的Bearer令牌。

  • num_proc (int | None) – 进程数量。

方法

__init__(path[, page_content_column, name, ...])

初始化 HuggingFaceDatasetLoader。

alazy_load()

一个用于文档的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

懒加载文档。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并将其分割成块。

parse_obj(page_content)

__init__(path: str, page_content_column: str = 'text', name: str | None = None, data_dir: str | None = None, data_files: str | Sequence[str] | Mapping[str, str | Sequence[str]] | None = None, cache_dir: str | None = None, keep_in_memory: bool | None = None, save_infos: bool = False, use_auth_token: bool | str | None = None, num_proc: int | None = None)[来源]#

初始化 HuggingFaceDatasetLoader。

Parameters:
  • path (str) – 数据集的路径或名称。

  • page_content_column (str) – 页面内容列名称。默认为“text”。

  • name (str | None) – 数据集配置的名称。

  • data_dir (str | None) – 数据集配置的数据目录。

  • data_files (str | Sequence[str] | Mapping[str, str | Sequence[str]] | None) – 源数据文件的路径。

  • cache_dir (str | None) – 用于读取/写入数据的目录。

  • keep_in_memory (bool | None) – 是否在内存中复制数据集。

  • save_infos (bool) – 保存数据集信息(校验和/大小/分割/…)。 默认值为 False。

  • use_auth_token (bool | str | None) – 用于访问数据集中心远程文件的Bearer令牌。

  • num_proc (int | None) – 进程数量。

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document][source]#

懒加载文档。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

parse_obj(page_content: str | object) str[来源]#
Parameters:

page_content (str | object)

Return type:

字符串

使用 HuggingFaceDatasetLoader 的示例