并发加载器#

class langchain_community.document_loaders.concurrent.ConcurrentLoader(blob_loader: BlobLoader, blob_parser: BaseBlobParser, num_workers: int = 4)[source]#

并发加载和解析文档。

一个通用的文档加载器。

Parameters:
  • blob_loader (BlobLoader) – 一个知道如何生成blob的blob加载器

  • blob_parser (BaseBlobParser) – 一个知道如何将blob解析为文档的blob解析器

  • num_workers (int)

方法

__init__(blob_loader, blob_parser[, num_workers])

一个通用的文档加载器。

alazy_load()

一个用于文档的懒加载器。

aload()

将数据加载到Document对象中。

from_filesystem(path, *[, glob, exclude, ...])

使用文件系统 blob 加载器创建一个并发的通用文档加载器。

get_parser(**kwargs)

重写此方法以将默认解析器与类关联。

lazy_load()

使用并发解析延迟加载文档。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载所有文档并将它们分割成句子。

__init__(blob_loader: BlobLoader, blob_parser: BaseBlobParser, num_workers: int = 4) None[source]#

一个通用的文档加载器。

Parameters:
  • blob_loader (BlobLoader) – 一个知道如何生成blob的blob加载器

  • blob_parser (BaseBlobParser) – 一个知道如何将blob解析为文档的blob解析器

  • num_workers (int)

Return type:

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

classmethod from_filesystem(path: str | Path, *, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Sequence[str] | None = None, show_progress: bool = False, parser: Literal['default'] | BaseBlobParser = 'default', num_workers: int = 4, parser_kwargs: dict | None = None) ConcurrentLoader[source]#

使用文件系统blob加载器创建一个并发的通用文档加载器。

Parameters:
  • path (str | Path) – 要加载文档的目录路径。

  • glob (str) – 用于查找文档的glob模式。

  • suffixes (Sequence[str] | None) – 用于过滤文档的后缀。如果为 None,则所有匹配 glob 的文件都会被加载。

  • exclude (Sequence[str]) – 要从加载器中排除的模式列表。

  • show_progress (bool) – 是否显示进度条(需要 tqdm)。 代理到文件系统加载器。

  • parser (Literal['default'] | ~langchain_core.document_loaders.base.BaseBlobParser) – 一个知道如何将blob解析为文档的blob解析器

  • num_workers (int) – 最大并发工作线程数。

  • parser_kwargs (dict | None) – 传递给解析器的关键字参数。

Return type:

ConcurrentLoader

static get_parser(**kwargs: Any) BaseBlobParser#

重写此方法以将默认解析器与类关联。

Parameters:

kwargs (任意)

Return type:

BaseBlobParser

lazy_load() Iterator[Document][source]#

使用并发解析延迟加载文档。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) List[Document]#

加载所有文档并将它们分割成句子。

Parameters:

text_splitter (可选[TextSplitter])

Return type:

列表[Document]

使用 ConcurrentLoader 的示例