langchain_community.document_loaders.directory
.DirectoryLoader¶
- class langchain_community.document_loaders.directory.DirectoryLoader(path: str, glob: str = '**/[!.]*', silent_errors: bool = False, load_hidden: bool = False, loader_cls: ~typing.Union[~typing.Type[~langchain_community.document_loaders.unstructured.UnstructuredFileLoader], ~typing.Type[~langchain_community.document_loaders.text.TextLoader], ~typing.Type[~langchain_community.document_loaders.html_bs.BSHTMLLoader], ~typing.Type[~langchain_community.document_loaders.csv_loader.CSVLoader]] = <class 'langchain_community.document_loaders.unstructured.UnstructuredFileLoader'>, loader_kwargs: ~typing.Optional[dict] = None, recursive: bool = False, show_progress: bool = False, use_multithreading: bool = False, max_concurrency: int = 4, *, exclude: ~typing.Union[~typing.Sequence[str], str] = (), sample_size: int = 0, randomize_sample: bool = False, sample_seed: ~typing.Optional[int] = None)[source]¶
从一个目录加载。
初始化目录路径和glob匹配模式。
- 参数:
path: 目录路径。 glob: 用于查找文件的glob模式。默认为”**/[!.]*”(除了隐藏文件之外的所有文件)。 exclude: 要从结果中排除的模式或模式列表。使用glob语法。 silent_errors: 是否静默忽略错误。默认为False。 load_hidden: 是否加载隐藏文件。默认为False。 loader_cls: 用于加载文件的加载器类。默认为UnstructuredFileLoader。 loader_kwargs: 传递给loader_cls的关键字参数。默认为None。 recursive: 是否递归搜索文件。默认为False。 show_progress: 是否显示进度条。默认为False。 use_multithreading: 是否使用多线程。默认为False。 max_concurrency: 要使用的最大线程数。默认为4。 sample_size: 您希望从目录中加载的文件的最大数量。 randomize_sample: 对文件进行洗牌以获得随机样本。 sample_seed: 设置用于可重现性的随机洗牌的种子。
示例:
Methods
__init__
(path[, glob, silent_errors, ...])初始化目录路径和glob匹配模式。
一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
懒加载文档。
load
()加载文档。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
path (str) –
glob (str) –
silent_errors (bool) –
load_hidden (bool) –
loader_cls (Union[Type[UnstructuredFileLoader], Type[TextLoader], Type[BSHTMLLoader], Type[CSVLoader]]) –
loader_kwargs (Optional[dict]) –
recursive (bool) –
show_progress (bool) –
use_multithreading (bool) –
max_concurrency (int) –
exclude (Union[Sequence[str], str]) –
sample_size (int) –
randomize_sample (bool) –
sample_seed (Optional[int]) –
- __init__(path: str, glob: str = '**/[!.]*', silent_errors: bool = False, load_hidden: bool = False, loader_cls: ~typing.Union[~typing.Type[~langchain_community.document_loaders.unstructured.UnstructuredFileLoader], ~typing.Type[~langchain_community.document_loaders.text.TextLoader], ~typing.Type[~langchain_community.document_loaders.html_bs.BSHTMLLoader], ~typing.Type[~langchain_community.document_loaders.csv_loader.CSVLoader]] = <class 'langchain_community.document_loaders.unstructured.UnstructuredFileLoader'>, loader_kwargs: ~typing.Optional[dict] = None, recursive: bool = False, show_progress: bool = False, use_multithreading: bool = False, max_concurrency: int = 4, *, exclude: ~typing.Union[~typing.Sequence[str], str] = (), sample_size: int = 0, randomize_sample: bool = False, sample_seed: ~typing.Optional[int] = None)[source]¶
初始化目录路径和glob匹配模式。
- 参数:
path: 目录路径。 glob: 用于查找文件的glob模式。默认为”**/[!.]*”(除了隐藏文件之外的所有文件)。 exclude: 要从结果中排除的模式或模式列表。使用glob语法。 silent_errors: 是否静默忽略错误。默认为False。 load_hidden: 是否加载隐藏文件。默认为False。 loader_cls: 用于加载文件的加载器类。默认为UnstructuredFileLoader。 loader_kwargs: 传递给loader_cls的关键字参数。默认为None。 recursive: 是否递归搜索文件。默认为False。 show_progress: 是否显示进度条。默认为False。 use_multithreading: 是否使用多线程。默认为False。 max_concurrency: 要使用的最大线程数。默认为4。 sample_size: 您希望从目录中加载的文件的最大数量。 randomize_sample: 对文件进行洗牌以获得随机样本。 sample_seed: 设置用于可重现性的随机洗牌的种子。
示例:
- Parameters
path (str) –
glob (str) –
silent_errors (bool) –
load_hidden (bool) –
loader_cls (Union[Type[UnstructuredFileLoader], Type[TextLoader], Type[BSHTMLLoader], Type[CSVLoader]]) –
loader_kwargs (Optional[dict]) –
recursive (bool) –
show_progress (bool) –
use_multithreading (bool) –
max_concurrency (int) –
exclude (Union[Sequence[str], str]) –
sample_size (int) –
randomize_sample (bool) –
sample_seed (Optional[int]) –
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]