`langchain_community.document_loaders.directory`.DirectoryLoader¶

class langchain_community.document_loaders.directory.DirectoryLoader(path: str, glob: str = '**/[!.]*', silent_errors: bool = False, load_hidden: bool = False, loader_cls: ~typing.Union[~typing.Type[~langchain_community.document_loaders.unstructured.UnstructuredFileLoader], ~typing.Type[~langchain_community.document_loaders.text.TextLoader], ~typing.Type[~langchain_community.document_loaders.html_bs.BSHTMLLoader], ~typing.Type[~langchain_community.document_loaders.csv_loader.CSVLoader]] = <class 'langchain_community.document_loaders.unstructured.UnstructuredFileLoader'>, loader_kwargs: ~typing.Optional[dict] = None, recursive: bool = False, show_progress: bool = False, use_multithreading: bool = False, max_concurrency: int = 4, *, exclude: ~typing.Union[~typing.Sequence[str], str] = (), sample_size: int = 0, randomize_sample: bool = False, sample_seed: ~typing.Optional[int] = None)[source]¶

从一个目录加载。

初始化目录路径和glob匹配模式。

参数：: path: 目录路径。 glob: 用于查找文件的glob模式。默认为”**/[!.]*”（除了隐藏文件之外的所有文件）。 exclude: 要从结果中排除的模式或模式列表。使用glob语法。 silent_errors: 是否静默忽略错误。默认为False。 load_hidden: 是否加载隐藏文件。默认为False。 loader_cls: 用于加载文件的加载器类。默认为UnstructuredFileLoader。 loader_kwargs: 传递给loader_cls的关键字参数。默认为None。 recursive: 是否递归搜索文件。默认为False。 show_progress: 是否显示进度条。默认为False。 use_multithreading: 是否使用多线程。默认为False。 max_concurrency: 要使用的最大线程数。默认为4。 sample_size: 您希望从目录中加载的文件的最大数量。 randomize_sample: 对文件进行洗牌以获得随机样本。 sample_seed: 设置用于可重现性的随机洗牌的种子。

示例：

Methods

`__init__`(path[, glob, silent_errors, ...])	初始化目录路径和glob匹配模式。
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`lazy_load`()	懒加载文档。
`load`()	加载文档。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。

Parameters

path (str) –
glob (str) –
silent_errors (bool) –
load_hidden (bool) –
loader_cls (Union[Type[UnstructuredFileLoader], Type[TextLoader], Type[BSHTMLLoader], Type[CSVLoader]]) –
loader_kwargs (Optional[dict]) –
recursive (bool) –
show_progress (bool) –
use_multithreading (bool) –
max_concurrency (int) –
exclude (Union[Sequence[str], str]) –
sample_size (int) –
randomize_sample (bool) –
sample_seed (Optional[int]) –

__init__(path: str, glob: str = '**/[!.]*', silent_errors: bool = False, load_hidden: bool = False, loader_cls: ~typing.Union[~typing.Type[~langchain_community.document_loaders.unstructured.UnstructuredFileLoader], ~typing.Type[~langchain_community.document_loaders.text.TextLoader], ~typing.Type[~langchain_community.document_loaders.html_bs.BSHTMLLoader], ~typing.Type[~langchain_community.document_loaders.csv_loader.CSVLoader]] = <class 'langchain_community.document_loaders.unstructured.UnstructuredFileLoader'>, loader_kwargs: ~typing.Optional[dict] = None, recursive: bool = False, show_progress: bool = False, use_multithreading: bool = False, max_concurrency: int = 4, *, exclude: ~typing.Union[~typing.Sequence[str], str] = (), sample_size: int = 0, randomize_sample: bool = False, sample_seed: ~typing.Optional[int] = None)[source]¶

初始化目录路径和glob匹配模式。

参数：: path: 目录路径。 glob: 用于查找文件的glob模式。默认为”**/[!.]*”（除了隐藏文件之外的所有文件）。 exclude: 要从结果中排除的模式或模式列表。使用glob语法。 silent_errors: 是否静默忽略错误。默认为False。 load_hidden: 是否加载隐藏文件。默认为False。 loader_cls: 用于加载文件的加载器类。默认为UnstructuredFileLoader。 loader_kwargs: 传递给loader_cls的关键字参数。默认为None。 recursive: 是否递归搜索文件。默认为False。 show_progress: 是否显示进度条。默认为False。 use_multithreading: 是否使用多线程。默认为False。 max_concurrency: 要使用的最大线程数。默认为4。 sample_size: 您希望从目录中加载的文件的最大数量。 randomize_sample: 对文件进行洗牌以获得随机样本。 sample_seed: 设置用于可重现性的随机洗牌的种子。

示例：

Parameters

path (str) –
glob (str) –
silent_errors (bool) –
load_hidden (bool) –
loader_cls (Union[Type[UnstructuredFileLoader], Type[TextLoader], Type[BSHTMLLoader], Type[CSVLoader]]) –
loader_kwargs (Optional[dict]) –
recursive (bool) –
show_progress (bool) –
use_multithreading (bool) –
max_concurrency (int) –
exclude (Union[Sequence[str], str]) –
sample_size (int) –
randomize_sample (bool) –
sample_seed (Optional[int]) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

lazy_load() → Iterator[Document][source]¶

懒加载文档。

Return type: Iterator[Document]

load() → List[Document][source]¶

加载文档。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

Examples using DirectoryLoader¶

langchain_community.document_loaders.directory.DirectoryLoader¶

Examples using DirectoryLoader¶

`langchain_community.document_loaders.directory`.DirectoryLoader¶