`langchain_community.document_loaders.pdf`.DocumentIntelligenceLoader¶

class langchain_community.document_loaders.pdf.DocumentIntelligenceLoader(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None)[source]¶

使用Azure文档智能加载PDF

使用Azure文档智能（以前称为表单识别器）初始化文件处理对象。

此构造函数初始化一个DocumentIntelligenceParser对象，用于使用Azure文档智能API解析文件。load方法为每个页面生成包含元数据（源blob和页码）的Document节点。

file_pathstr: 需要解析的文件路径。
client: Any: 用于执行blob分析的DocumentAnalysisClient
modelstr: 用于在Azure中进行表单识别的模型名称或ID。

>>> obj = DocumentIntelligenceLoader(
...     file_path="path/to/file",
...     client=client,
...     model="prebuilt-document"
... )

Attributes

source

Methods

`__init__`(file_path, client[, model, headers])	使用Azure文档智能（以前称为表单识别器）初始化文件处理对象。
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`lazy_load`()	将给定路径作为页面进行延迟加载。
`load`()	将给定路径加载为页面。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。

Parameters

file_path (str) –
client (Any) –
model (str) –
headers (Optional[Dict]) –

Return type

None

__init__(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None) → None[source]¶

使用Azure文档智能（以前称为表单识别器）初始化文件处理对象。

此构造函数初始化一个DocumentIntelligenceParser对象，用于使用Azure文档智能API解析文件。load方法为每个页面生成包含元数据（源blob和页码）的Document节点。

file_pathstr: 需要解析的文件路径。
client: Any: 用于执行blob分析的DocumentAnalysisClient
modelstr: 用于在Azure中进行表单识别的模型名称或ID。

>>> obj = DocumentIntelligenceLoader(
...     file_path="path/to/file",
...     client=client,
...     model="prebuilt-document"
... )

Parameters

file_path (str) –
client (Any) –
model (str) –
headers (Optional[Dict]) –

Return type

None

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

lazy_load() → Iterator[Document][source]¶

将给定路径作为页面进行延迟加载。

Return type: Iterator[Document]

load() → List[Document][source]¶

将给定路径加载为页面。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

langchain_community.document_loaders.pdf.DocumentIntelligenceLoader¶

`langchain_community.document_loaders.pdf`.DocumentIntelligenceLoader¶