DocugamiLoader#
- class langchain_community.document_loaders.docugami.DocugamiLoader[来源]#
基础类:
BaseLoader
,BaseModel
自版本0.0.24起已弃用:请改用
:class:`~docugami_langchain.DocugamiLoader`
。在langchain-community==1.0之前不会移除。从Docugami加载。
要使用,您应该安装
dgml-utils
python包。通过解析和验证来自关键字参数的输入数据来创建一个新模型。
如果输入数据无法验证以形成有效模型,则引发 [ValidationError][pydantic_core.ValidationError]。
self 被显式地设为仅位置参数,以允许 self 作为字段名称。
- param access_token: str | None = None#
使用的Docugami API访问令牌。
- param api: str = 'https://api.docugami.com/v1preview1'#
要使用的Docugami API端点。
- param docset_id: str | None = None#
要使用的Docugami API文档集ID。
- param document_ids: Sequence[str] | None = None#
要使用的Docugami API文档ID。
- param file_paths: Sequence[Path | str] | None [Required]#
要使用的本地文件路径。
- param include_project_metadata_in_doc_metadata: bool = True#
如果要包含项目元数据在文档元数据中,请设置为True。
- param include_xml_tags: bool = False#
设置为true以在块输出文本中使用XML标签。
- param max_metadata_length: int = 512#
返回的元数据文本的最大长度。
- param max_text_length: int = 4096#
返回的块文本的最大长度。
- param min_text_length: int = 32#
阈值,低于该值时将块附加到下一个块以避免过度分块。
- param parent_hierarchy_levels: int = 0#
适当设置以使用块层次结构获取父块。
- param parent_id_key: str = 'doc_id'#
父文档ID的元数据键。
- param sub_chunk_tables: bool = False#
设置为True以返回表格中的子块。
- param whitespace_normalize_text: bool = True#
如果希望在原始XML文档中保留完整的空白格式,包括缩进,请设置为False。
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]