`langchain_community.document_loaders.parsers.pdf`.AmazonTextractPDFParser¶

class langchain_community.document_loaders.parsers.pdf.AmazonTextractPDFParser(textract_features: Optional[Sequence[int]] = None, client: Optional[Any] = None, *, linearization_config: Optional['TextLinearizationConfig'] = None)[source]¶

将`PDF`文件发送到`Amazon Textract`并解析它们。

要解析多页PDF文件，它们必须存储在S3上。

AmazonTextractPDFLoader调用 [Amazon Textract服务](https://aws.amazon.com/textract/) 将PDF文件转换为文档结构。支持单页和多页文档，最多支持3000页和512 MB大小。

要成功调用，需要一个AWS账户，类似于 [AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure.html) 的要求。

除了AWS配置外，它与其他PDF加载器非常相似，同时还支持JPEG、PNG和TIFF以及非原生PDF格式。

`python from langchain_community.document_loaders import AmazonTextractPDFLoader loader=AmazonTextractPDFLoader("example_data/alejandro_rosalez_sample-small.jpeg") documents = loader.load() `

一个特性是输出的线性化。当与Textract一起使用特性LAYOUT、FORMS或TABLES时

```python from langchain_community.document_loaders import AmazonTextractPDFLoader # 您可以混合和匹配每个特性 loader=AmazonTextractPDFLoader(

“example_data/alejandro_rosalez_sample-small.jpeg”, textract_features=[“TABLES”, “LAYOUT”])

documents = loader.load() ```

它将生成按阅读顺序格式化文本的输出，并尝试以表格结构输出信息或使用冒号（key: value）输出键/值对。这有助于大多数LLMs在处理这些文本时实现更好的准确性。

初始化解析器。

参数：: textract_features：用于提取的特征，每个特征应作为符合枚举`Textract_Features`的整数传递，参见`amazon-textract-caller`包 client：boto3 textract客户端 linearization_config：用于输出线性化的配置应为来自`textractor`包的TextLinearizationConfig实例

Methods

`__init__`([textract_features, client, ...])	初始化解析器。
`lazy_parse`(blob)	遍历Blob页面并返回一个迭代器，每个页面都有一个Document，类似于其他解析器。如果是多页文档，blob.path必须设置为S3 URI，对于单页文档，则使用blob.data。
`parse`(blob)	将blob急切地解析为一个文档或多个文档。

Parameters

textract_features (Optional[Sequence[int]]) –
client (Optional[Any]) –
linearization_config (Optional['TextLinearizationConfig']) –

Return type

None

__init__(textract_features: Optional[Sequence[int]] = None, client: Optional[Any] = None, *, linearization_config: Optional['TextLinearizationConfig'] = None) → None[source]¶

初始化解析器。

参数：: textract_features：用于提取的特征，每个特征应作为符合枚举`Textract_Features`的整数传递，参见`amazon-textract-caller`包 client：boto3 textract客户端 linearization_config：用于输出线性化的配置应为来自`textractor`包的TextLinearizationConfig实例

Parameters

textract_features (Optional[Sequence[int]]) –
client (Optional[Any]) –
linearization_config (Optional['TextLinearizationConfig']) –

Return type

None

lazy_parse(blob: Blob) → Iterator[Document][source]¶

遍历Blob页面并返回一个迭代器，每个页面都有一个Document，类似于其他解析器。如果是多页文档，blob.path必须设置为S3 URI，对于单页文档，则使用blob.data。

Parameters: blob (Blob) –
Return type: Iterator[Document]

parse(blob: Blob) → List[Document]¶

将blob急切地解析为一个文档或多个文档。

这是一个用于交互式开发环境的便利方法。

生产应用程序应该更倾向于使用lazy_parse方法。

子类通常不应该覆盖这个解析方法。

参数：: blob：Blob实例
返回：: 文档列表

Parameters: blob (Blob) –
Return type: List[Document]

langchain_community.document_loaders.parsers.pdf.AmazonTextractPDFParser¶

`langchain_community.document_loaders.parsers.pdf`.AmazonTextractPDFParser¶