DocugamiLoader#

class langchain_community.document_loaders.docugami.DocugamiLoader[来源]#

基础类:BaseLoader, BaseModel

自版本0.0.24起已弃用:请改用:class:`~docugami_langchain.DocugamiLoader`。在langchain-community==1.0之前不会移除。

Docugami加载。

要使用,您应该安装dgml-utils python包。

通过解析和验证来自关键字参数的输入数据来创建一个新模型。

如果输入数据无法验证以形成有效模型,则引发 [ValidationError][pydantic_core.ValidationError]。

self 被显式地设为仅位置参数,以允许 self 作为字段名称。

param access_token: str | None = None#

使用的Docugami API访问令牌。

param api: str = 'https://api.docugami.com/v1preview1'#

要使用的Docugami API端点。

param docset_id: str | None = None#

要使用的Docugami API文档集ID。

param document_ids: Sequence[str] | None = None#

要使用的Docugami API文档ID。

param file_paths: Sequence[Path | str] | None [Required]#

要使用的本地文件路径。

param include_project_metadata_in_doc_metadata: bool = True#

如果要包含项目元数据在文档元数据中,请设置为True。

param include_xml_tags: bool = False#

设置为true以在块输出文本中使用XML标签。

param max_metadata_length: int = 512#

返回的元数据文本的最大长度。

param max_text_length: int = 4096#

返回的块文本的最大长度。

param min_text_length: int = 32#

阈值,低于该值时将块附加到下一个块以避免过度分块。

param parent_hierarchy_levels: int = 0#

适当设置以使用块层次结构获取父块。

param parent_id_key: str = 'doc_id'#

父文档ID的元数据键。

param sub_chunk_tables: bool = False#

设置为True以返回表格中的子块。

param whitespace_normalize_text: bool = True#

如果希望在原始XML文档中保留完整的空白格式,包括缩进,请设置为False。

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document]#

文档的懒加载器。

Return type:

迭代器[文档]

load() List[Document][source]#

加载文档。

Return type:

列表[文档]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]