`langchain_community.document_loaders.hugging_face_dataset`.HuggingFaceDatasetLoader¶

class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]¶

从`Hugging Face Hub`加载数据集。

初始化HuggingFaceDatasetLoader。

参数：: path: 数据集的路径或名称。 page_content_column: 页面内容列的名称。默认为”text”。 name: 数据集配置的名称。 data_dir: 数据集配置的数据目录。 data_files: 源数据文件的路径。 cache_dir: 读取/写入数据的目录。 keep_in_memory: 是否将数据集保存在内存中。 save_infos: 是否保存数据集信息（校验和/大小/拆分等）。默认为False。 use_auth_token: Dataset Hub 上远程文件的 Bearer token。 num_proc: 进程数量。

Methods

`__init__`(path[, page_content_column, name, ...])	初始化HuggingFaceDatasetLoader。
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`lazy_load`()	懒加载文档。
`load`()	将数据加载到文档对象中。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。
`parse_obj`(page_content)

Parameters

path (str) –
page_content_column (str) –
name (Optional[str]) –
data_dir (Optional[str]) –
data_files (Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]]) –
cache_dir (Optional[str]) –
keep_in_memory (Optional[bool]) –
save_infos (bool) –
use_auth_token (Optional[Union[bool, str]]) –
num_proc (Optional[int]) –

__init__(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]¶

初始化HuggingFaceDatasetLoader。

参数：: path: 数据集的路径或名称。 page_content_column: 页面内容列的名称。默认为”text”。 name: 数据集配置的名称。 data_dir: 数据集配置的数据目录。 data_files: 源数据文件的路径。 cache_dir: 读取/写入数据的目录。 keep_in_memory: 是否将数据集保存在内存中。 save_infos: 是否保存数据集信息（校验和/大小/拆分等）。默认为False。 use_auth_token: Dataset Hub 上远程文件的 Bearer token。 num_proc: 进程数量。

Parameters

path (str) –
page_content_column (str) –
name (Optional[str]) –
data_dir (Optional[str]) –
data_files (Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]]) –
cache_dir (Optional[str]) –
keep_in_memory (Optional[bool]) –
save_infos (bool) –
use_auth_token (Optional[Union[bool, str]]) –
num_proc (Optional[int]) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

lazy_load() → Iterator[Document][source]¶

懒加载文档。

Return type: Iterator[Document]

load() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

parse_obj(page_content: Union[str, object]) → str[source]¶

Parameters: page_content (Union[str, object]) –
Return type: str

Examples using HuggingFaceDatasetLoader¶

langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader¶

Examples using HuggingFaceDatasetLoader¶

`langchain_community.document_loaders.hugging_face_dataset`.HuggingFaceDatasetLoader¶