AmazonTextractPDF解析器#

class langchain_community.document_loaders.parsers.pdf.AmazonTextractPDFParser(textract_features: Sequence[int] | None = None, client: Any | None = None, *, linearization_config: 'TextLinearizationConfig' | None = None)[source]#

发送PDF文件到Amazon Textract并解析它们。

为了解析多页PDF,它们必须存放在S3上。

AmazonTextractPDFLoader 调用 [Amazon Textract Service](https://aws.amazon.com/textract/) 将 PDF 转换为文档结构。 支持单页和多页文档,最多 3000 页 和 512 MB 的大小。

为了使调用成功,需要一个AWS账户, 类似于 [AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure.html) 的要求。

除了AWS配置外,它与其他PDF加载器非常相似,同时还支持JPEG、PNG、TIFF和非原生PDF格式。

`python from langchain_community.document_loaders import AmazonTextractPDFLoader loader=AmazonTextractPDFLoader("example_data/alejandro_rosalez_sample-small.jpeg") documents = loader.load() `

一个特性是输出的线性化。 当将LAYOUT、FORMS或TABLES特性与Textract一起使用时

```python from langchain_community.document_loaders import AmazonTextractPDFLoader # 你可以混合和匹配每个功能 loader=AmazonTextractPDFLoader(

“example_data/alejandro_rosalez_sample-small.jpeg”, textract_features=[“TABLES”, “LAYOUT”])

文档 = loader.load() ```

它将生成按阅读顺序格式化文本的输出,并尝试以表格结构输出信息,或以冒号(键:值)输出键/值对。这有助于大多数LLM在处理这些文本时实现更高的准确性。

初始化解析器。

Parameters:
  • textract_features (可选[序列[整数]]) – 用于提取的特征,每个特征应作为符合枚举Textract_Features的整数传递,请参阅amazon-textract-caller

  • client (可选[任意类型]) – boto3 textract 客户端

  • linearization_config (Optional['TextLinearizationConfig']) – 用于输出线性化的配置 应该是来自 textractor 包的 TextLinearizationConfig 的实例

方法

__init__([textract_features, client, ...])

初始化解析器。

lazy_parse(blob)

遍历Blob页面并返回一个迭代器,每个页面对应一个Document,与其他解析器类似。如果是多页文档,blob.path必须设置为S3 URI,而对于单页文档,则使用blob.data。

parse(blob)

急切地将blob解析为一个或多个文档。

__init__(textract_features: Sequence[int] | None = None, client: Any | None = None, *, linearization_config: 'TextLinearizationConfig' | None = None) None[来源]#

初始化解析器。

Parameters:
  • textract_features (可选[序列[整数]]) – 用于提取的特征,每个特征应作为符合枚举Textract_Features的整数传递,请参阅amazon-textract-caller

  • client (可选[任意类型]) – boto3 textract 客户端

  • linearization_config (Optional['TextLinearizationConfig']) – 用于输出线性化的配置 应该是来自 textractor 包的 TextLinearizationConfig 的实例

Return type:

lazy_parse(blob: Blob) Iterator[Document][source]#

遍历Blob页面并返回一个迭代器,每个页面都有一个文档,就像其他解析器一样。如果是多页文档,blob.path必须设置为S3 URI,而对于单页文档,则使用blob.data。

Parameters:

blob (Blob)

Return type:

迭代器[文档]

parse(blob: Blob) list[Document]#

急切地将blob解析为一个或多个文档。

这是一个用于交互式开发环境的便捷方法。

生产应用程序应优先使用lazy_parse方法。

子类通常不应重写此解析方法。

Parameters:

blob (Blob) – Blob 实例

Returns:

文档列表

Return type:

列表[Document]