AzureAIDocumentIntelligenceLoader#

class langchain_community.document_loaders.doc_intelligence.AzureAIDocumentIntelligenceLoader(api_endpoint: str, api_key: str, file_path: str | None = None, url_path: str | None = None, bytes_source: bytes | None = None, api_version: str | None = None, api_model: str = 'prebuilt-layout', mode: str = 'markdown', *, analysis_features: List[str] | None = None)[source]#

使用Azure文档智能加载PDF。

初始化用于使用Azure文档智能(以前称为表单识别器)进行文件处理的对象。

此构造函数初始化一个 AzureAIDocumentIntelligenceParser 对象,用于使用 Azure Document Intelligence API 解析文件。load 方法生成其内容表示由 mode 参数确定的 Documents。

参数:#

api_endpoint: str

用于DocumentIntelligenceClient构造的API端点。

api_key: str

用于DocumentIntelligenceClient构造的API密钥。

file_pathOptional[str]

需要加载的文件的路径。 必须指定 file_path、url_path 或 bytes_source 中的一个。

url_pathOptional[str]

需要加载的文件的URL。 必须指定file_path、url_path或bytes_source中的一个。

bytes_sourceOptional[bytes]

需要加载的文件的字节数组。 必须指定 file_path、url_path 或 bytes_source 中的一个。

api_version: Optional[str]

DocumentIntelligenceClient 的 API 版本。设置为 None 以使用 azure-ai-documentintelligence 包中的默认值。

api_model: str

唯一的文档模型名称。默认值为“prebuilt-layout”。 请注意,覆盖此默认值可能会导致不受支持的行为。

mode: Optional[str]

生成的文档内容表示的类型。 使用“single”、“page”或“markdown”。默认值为“markdown”。

analysis_features: Optional[List[str]]

可选分析功能列表,每个功能应作为符合azure-ai-documentintelligence包中DocumentAnalysisFeature枚举的字符串传递。默认值为None。

示例:#

>>> obj = AzureAIDocumentIntelligenceLoader(
...     file_path="path/to/file",
...     api_endpoint="https://endpoint.azure.com",
...     api_key="APIKEY",
...     api_version="2023-10-31-preview",
...     api_model="prebuilt-layout",
...     mode="markdown"
... )

方法

__init__(api_endpoint, api_key[, file_path, ...])

初始化对象以使用Azure文档智能(原表单识别器)进行文件处理。

alazy_load()

一个用于文档的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

懒加载文档为页面。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(api_endpoint: str, api_key: str, file_path: str | None = None, url_path: str | None = None, bytes_source: bytes | None = None, api_version: str | None = None, api_model: str = 'prebuilt-layout', mode: str = 'markdown', *, analysis_features: List[str] | None = None) None[source]#

初始化用于使用Azure文档智能(以前称为表单识别器)进行文件处理的对象。

此构造函数初始化一个 AzureAIDocumentIntelligenceParser 对象,用于使用 Azure Document Intelligence API 解析文件。load 方法生成其内容表示由 mode 参数确定的 Documents。

参数:#

api_endpoint: str

用于DocumentIntelligenceClient构造的API端点。

api_key: str

用于DocumentIntelligenceClient构造的API密钥。

file_pathOptional[str]

需要加载的文件的路径。 必须指定 file_path、url_path 或 bytes_source 中的一个。

url_pathOptional[str]

需要加载的文件的URL。 必须指定file_path、url_path或bytes_source中的一个。

bytes_sourceOptional[bytes]

需要加载的文件的字节数组。 必须指定 file_path、url_path 或 bytes_source 中的一个。

api_version: Optional[str]

DocumentIntelligenceClient 的 API 版本。设置为 None 以使用 azure-ai-documentintelligence 包中的默认值。

api_model: str

唯一的文档模型名称。默认值为“prebuilt-layout”。 请注意,覆盖此默认值可能会导致不受支持的行为。

mode: Optional[str]

生成的文档内容表示的类型。 使用“single”、“page”或“markdown”。默认值为“markdown”。

analysis_features: Optional[List[str]]

可选分析功能列表,每个功能应作为符合azure-ai-documentintelligence包中DocumentAnalysisFeature枚举的字符串传递。默认值为None。

示例:#

>>> obj = AzureAIDocumentIntelligenceLoader(
...     file_path="path/to/file",
...     api_endpoint="https://endpoint.azure.com",
...     api_key="APIKEY",
...     api_version="2023-10-31-preview",
...     api_model="prebuilt-layout",
...     mode="markdown"
... )
Parameters:
  • api_endpoint (str)

  • api_key (str)

  • file_path (str | None)

  • url_path (str | None)

  • bytes_source (字节 | )

  • api_version (str | None)

  • api_model (str)

  • mode (str)

  • analysis_features (List[str] | None)

Return type:

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document][source]#

将文档作为页面进行懒加载。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

Parameters:
  • api_endpoint (str)

  • api_key (str)

  • file_path (str | None)

  • url_path (str | None)

  • bytes_source (字节 | )

  • api_version (str | None)

  • api_model (str)

  • mode (str)

  • analysis_features (List[str] | None)

使用 AzureAIDocumentIntelligenceLoader 的示例