langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader

class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]

从`Hugging Face Hub`加载数据集。

初始化HuggingFaceDatasetLoader。

参数:

path: 数据集的路径或名称。 page_content_column: 页面内容列的名称。默认为”text”。 name: 数据集配置的名称。 data_dir: 数据集配置的数据目录。 data_files: 源数据文件的路径。 cache_dir: 读取/写入数据的目录。 keep_in_memory: 是否将数据集保存在内存中。 save_infos: 是否保存数据集信息(校验和/大小/拆分等)。默认为False。 use_auth_token: Dataset Hub 上远程文件的 Bearer token。 num_proc: 进程数量。

Methods

__init__(path[, page_content_column, name, ...])

初始化HuggingFaceDatasetLoader。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

懒加载文档。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

parse_obj(page_content)

Parameters
  • path (str) –

  • page_content_column (str) –

  • name (Optional[str]) –

  • data_dir (Optional[str]) –

  • data_files (Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]]) –

  • cache_dir (Optional[str]) –

  • keep_in_memory (Optional[bool]) –

  • save_infos (bool) –

  • use_auth_token (Optional[Union[bool, str]]) –

  • num_proc (Optional[int]) –

__init__(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]

初始化HuggingFaceDatasetLoader。

参数:

path: 数据集的路径或名称。 page_content_column: 页面内容列的名称。默认为”text”。 name: 数据集配置的名称。 data_dir: 数据集配置的数据目录。 data_files: 源数据文件的路径。 cache_dir: 读取/写入数据的目录。 keep_in_memory: 是否将数据集保存在内存中。 save_infos: 是否保存数据集信息(校验和/大小/拆分等)。默认为False。 use_auth_token: Dataset Hub 上远程文件的 Bearer token。 num_proc: 进程数量。

Parameters
  • path (str) –

  • page_content_column (str) –

  • name (Optional[str]) –

  • data_dir (Optional[str]) –

  • data_files (Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]]) –

  • cache_dir (Optional[str]) –

  • keep_in_memory (Optional[bool]) –

  • save_infos (bool) –

  • use_auth_token (Optional[Union[bool, str]]) –

  • num_proc (Optional[int]) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

lazy_load() Iterator[Document][source]

懒加载文档。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

parse_obj(page_content: Union[str, object]) str[source]
Parameters

page_content (Union[str, object]) –

Return type

str

Examples using HuggingFaceDatasetLoader