langchain_community.document_loaders.directory.DirectoryLoader

class langchain_community.document_loaders.directory.DirectoryLoader(path: str, glob: str = '**/[!.]*', silent_errors: bool = False, load_hidden: bool = False, loader_cls: ~typing.Union[~typing.Type[~langchain_community.document_loaders.unstructured.UnstructuredFileLoader], ~typing.Type[~langchain_community.document_loaders.text.TextLoader], ~typing.Type[~langchain_community.document_loaders.html_bs.BSHTMLLoader], ~typing.Type[~langchain_community.document_loaders.csv_loader.CSVLoader]] = <class 'langchain_community.document_loaders.unstructured.UnstructuredFileLoader'>, loader_kwargs: ~typing.Optional[dict] = None, recursive: bool = False, show_progress: bool = False, use_multithreading: bool = False, max_concurrency: int = 4, *, exclude: ~typing.Union[~typing.Sequence[str], str] = (), sample_size: int = 0, randomize_sample: bool = False, sample_seed: ~typing.Optional[int] = None)[source]

从一个目录加载。

初始化目录路径和glob匹配模式。

参数:

path: 目录路径。 glob: 用于查找文件的glob模式。默认为”**/[!.]*”(除了隐藏文件之外的所有文件)。 exclude: 要从结果中排除的模式或模式列表。使用glob语法。 silent_errors: 是否静默忽略错误。默认为False。 load_hidden: 是否加载隐藏文件。默认为False。 loader_cls: 用于加载文件的加载器类。默认为UnstructuredFileLoader。 loader_kwargs: 传递给loader_cls的关键字参数。默认为None。 recursive: 是否递归搜索文件。默认为False。 show_progress: 是否显示进度条。默认为False。 use_multithreading: 是否使用多线程。默认为False。 max_concurrency: 要使用的最大线程数。默认为4。 sample_size: 您希望从目录中加载的文件的最大数量。 randomize_sample: 对文件进行洗牌以获得随机样本。 sample_seed: 设置用于可重现性的随机洗牌的种子。

示例:

Methods

__init__(path[, glob, silent_errors, ...])

初始化目录路径和glob匹配模式。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

懒加载文档。

load()

加载文档。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

Parameters
  • path (str) –

  • glob (str) –

  • silent_errors (bool) –

  • load_hidden (bool) –

  • loader_cls (Union[Type[UnstructuredFileLoader], Type[TextLoader], Type[BSHTMLLoader], Type[CSVLoader]]) –

  • loader_kwargs (Optional[dict]) –

  • recursive (bool) –

  • show_progress (bool) –

  • use_multithreading (bool) –

  • max_concurrency (int) –

  • exclude (Union[Sequence[str], str]) –

  • sample_size (int) –

  • randomize_sample (bool) –

  • sample_seed (Optional[int]) –

__init__(path: str, glob: str = '**/[!.]*', silent_errors: bool = False, load_hidden: bool = False, loader_cls: ~typing.Union[~typing.Type[~langchain_community.document_loaders.unstructured.UnstructuredFileLoader], ~typing.Type[~langchain_community.document_loaders.text.TextLoader], ~typing.Type[~langchain_community.document_loaders.html_bs.BSHTMLLoader], ~typing.Type[~langchain_community.document_loaders.csv_loader.CSVLoader]] = <class 'langchain_community.document_loaders.unstructured.UnstructuredFileLoader'>, loader_kwargs: ~typing.Optional[dict] = None, recursive: bool = False, show_progress: bool = False, use_multithreading: bool = False, max_concurrency: int = 4, *, exclude: ~typing.Union[~typing.Sequence[str], str] = (), sample_size: int = 0, randomize_sample: bool = False, sample_seed: ~typing.Optional[int] = None)[source]

初始化目录路径和glob匹配模式。

参数:

path: 目录路径。 glob: 用于查找文件的glob模式。默认为”**/[!.]*”(除了隐藏文件之外的所有文件)。 exclude: 要从结果中排除的模式或模式列表。使用glob语法。 silent_errors: 是否静默忽略错误。默认为False。 load_hidden: 是否加载隐藏文件。默认为False。 loader_cls: 用于加载文件的加载器类。默认为UnstructuredFileLoader。 loader_kwargs: 传递给loader_cls的关键字参数。默认为None。 recursive: 是否递归搜索文件。默认为False。 show_progress: 是否显示进度条。默认为False。 use_multithreading: 是否使用多线程。默认为False。 max_concurrency: 要使用的最大线程数。默认为4。 sample_size: 您希望从目录中加载的文件的最大数量。 randomize_sample: 对文件进行洗牌以获得随机样本。 sample_seed: 设置用于可重现性的随机洗牌的种子。

示例:

Parameters
  • path (str) –

  • glob (str) –

  • silent_errors (bool) –

  • load_hidden (bool) –

  • loader_cls (Union[Type[UnstructuredFileLoader], Type[TextLoader], Type[BSHTMLLoader], Type[CSVLoader]]) –

  • loader_kwargs (Optional[dict]) –

  • recursive (bool) –

  • show_progress (bool) –

  • use_multithreading (bool) –

  • max_concurrency (int) –

  • exclude (Union[Sequence[str], str]) –

  • sample_size (int) –

  • randomize_sample (bool) –

  • sample_seed (Optional[int]) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

lazy_load() Iterator[Document][source]

懒加载文档。

Return type

Iterator[Document]

load() List[Document][source]

加载文档。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using DirectoryLoader