langchain_community.document_loaders.hugging_face_dataset
.HuggingFaceDatasetLoader¶
- class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]¶
从`Hugging Face Hub`加载数据集。
初始化HuggingFaceDatasetLoader。
- 参数:
path: 数据集的路径或名称。 page_content_column: 页面内容列的名称。默认为”text”。 name: 数据集配置的名称。 data_dir: 数据集配置的数据目录。 data_files: 源数据文件的路径。 cache_dir: 读取/写入数据的目录。 keep_in_memory: 是否将数据集保存在内存中。 save_infos: 是否保存数据集信息(校验和/大小/拆分等)。默认为False。 use_auth_token: Dataset Hub 上远程文件的 Bearer token。 num_proc: 进程数量。
Methods
__init__
(path[, page_content_column, name, ...])初始化HuggingFaceDatasetLoader。
一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
懒加载文档。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
parse_obj
(page_content)- Parameters
path (str) –
page_content_column (str) –
name (Optional[str]) –
data_dir (Optional[str]) –
data_files (Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]]) –
cache_dir (Optional[str]) –
keep_in_memory (Optional[bool]) –
save_infos (bool) –
use_auth_token (Optional[Union[bool, str]]) –
num_proc (Optional[int]) –
- __init__(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]¶
初始化HuggingFaceDatasetLoader。
- 参数:
path: 数据集的路径或名称。 page_content_column: 页面内容列的名称。默认为”text”。 name: 数据集配置的名称。 data_dir: 数据集配置的数据目录。 data_files: 源数据文件的路径。 cache_dir: 读取/写入数据的目录。 keep_in_memory: 是否将数据集保存在内存中。 save_infos: 是否保存数据集信息(校验和/大小/拆分等)。默认为False。 use_auth_token: Dataset Hub 上远程文件的 Bearer token。 num_proc: 进程数量。
- Parameters
path (str) –
page_content_column (str) –
name (Optional[str]) –
data_dir (Optional[str]) –
data_files (Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]]) –
cache_dir (Optional[str]) –
keep_in_memory (Optional[bool]) –
save_infos (bool) –
use_auth_token (Optional[Union[bool, str]]) –
num_proc (Optional[int]) –
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]