HuggingFace数据集加载器#
- class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: str | None = None, data_dir: str | None = None, data_files: str | Sequence[str] | Mapping[str, str | Sequence[str]] | None = None, cache_dir: str | None = None, keep_in_memory: bool | None = None, save_infos: bool = False, use_auth_token: bool | str | None = None, num_proc: int | None = None)[source]#
从Hugging Face Hub加载数据集。
初始化 HuggingFaceDatasetLoader。
- Parameters:
path (str) – 数据集的路径或名称。
page_content_column (str) – 页面内容列名称。默认为“text”。
name (str | None) – 数据集配置的名称。
data_dir (str | None) – 数据集配置的数据目录。
data_files (str | Sequence[str] | Mapping[str, str | Sequence[str]] | None) – 源数据文件的路径。
cache_dir (str | None) – 用于读取/写入数据的目录。
keep_in_memory (bool | None) – 是否在内存中复制数据集。
save_infos (bool) – 保存数据集信息(校验和/大小/分割/…)。 默认值为 False。
use_auth_token (bool | str | None) – 用于访问数据集中心远程文件的Bearer令牌。
num_proc (int | None) – 进程数量。
方法
__init__
(path[, page_content_column, name, ...])初始化 HuggingFaceDatasetLoader。
一个用于文档的懒加载器。
aload
()将数据加载到Document对象中。
懒加载文档。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载文档并将其分割成块。
parse_obj
(page_content)- __init__(path: str, page_content_column: str = 'text', name: str | None = None, data_dir: str | None = None, data_files: str | Sequence[str] | Mapping[str, str | Sequence[str]] | None = None, cache_dir: str | None = None, keep_in_memory: bool | None = None, save_infos: bool = False, use_auth_token: bool | str | None = None, num_proc: int | None = None)[来源]#
初始化 HuggingFaceDatasetLoader。
- Parameters:
path (str) – 数据集的路径或名称。
page_content_column (str) – 页面内容列名称。默认为“text”。
name (str | None) – 数据集配置的名称。
data_dir (str | None) – 数据集配置的数据目录。
data_files (str | Sequence[str] | Mapping[str, str | Sequence[str]] | None) – 源数据文件的路径。
cache_dir (str | None) – 用于读取/写入数据的目录。
keep_in_memory (bool | None) – 是否在内存中复制数据集。
save_infos (bool) – 保存数据集信息(校验和/大小/分割/…)。 默认值为 False。
use_auth_token (bool | str | None) – 用于访问数据集中心远程文件的Bearer令牌。
num_proc (int | None) – 进程数量。
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 HuggingFaceDatasetLoader 的示例