langchain_community.document_loaders.concurrent.ConcurrentLoader

class langchain_community.document_loaders.concurrent.ConcurrentLoader(blob_loader: BlobLoader, blob_parser: BaseBlobParser, num_workers: int = 4)[source]

同时加载和解析文档。

一个通用的文档加载器。

参数:

blob_loader:一个知道如何生成blob的blob加载器 blob_parser:一个知道如何将blob解析为文档的blob解析器

Methods

__init__(blob_loader, blob_parser[, num_workers])

一个通用的文档加载器。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

from_filesystem(path, *[, glob, exclude, ...])

创建一个使用文件系统blob加载器的并发通用文档加载器。

get_parser(**kwargs)

重写此方法以将默认解析器与类关联。

lazy_load()

使用并发解析来延迟加载文档。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载所有文档并将它们分割成句子。

Parameters
Return type

None

__init__(blob_loader: BlobLoader, blob_parser: BaseBlobParser, num_workers: int = 4) None[source]

一个通用的文档加载器。

参数:

blob_loader:一个知道如何生成blob的blob加载器 blob_parser:一个知道如何将blob解析为文档的blob解析器

Parameters
Return type

None

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

classmethod from_filesystem(path: Union[str, Path], *, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Optional[Sequence[str]] = None, show_progress: bool = False, parser: Union[Literal['default'], BaseBlobParser] = 'default', num_workers: int = 4, parser_kwargs: Optional[dict] = None) ConcurrentLoader[source]

创建一个使用文件系统blob加载器的并发通用文档加载器。

参数:

path: 从中加载文档的目录路径。 glob: 用于查找文档的glob模式。 suffixes: 用于过滤文档的后缀。如果为None,则加载与glob匹配的所有文件。 exclude: 要从加载器中排除的模式列表。 show_progress: 是否显示进度条(需要tqdm)。代理到文件系统加载器。 parser: 一个知道如何将blob解析为文档的blob解析器。 num_workers: 要使用的最大并发工作线程数。 parser_kwargs: 传递给解析器的关键字参数。

Parameters
  • path (Union[str, Path]) –

  • glob (str) –

  • exclude (Sequence[str]) –

  • suffixes (Optional[Sequence[str]]) –

  • show_progress (bool) –

  • parser (Union[Literal['default'], BaseBlobParser]) –

  • num_workers (int) –

  • parser_kwargs (Optional[dict]) –

Return type

ConcurrentLoader

static get_parser(**kwargs: Any) BaseBlobParser

重写此方法以将默认解析器与类关联。

Parameters

kwargs (Any) –

Return type

BaseBlobParser

lazy_load() Iterator[Document][source]

使用并发解析来延迟加载文档。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载所有文档并将它们分割成句子。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using ConcurrentLoader