langchain_community.document_loaders.pdf.AmazonTextractPDFLoader

class langchain_community.document_loaders.pdf.AmazonTextractPDFLoader(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None)[source]

从本地文件系统、HTTP或S3加载`PDF`文件。

要进行身份验证,AWS客户端使用以下方法自动加载凭据: https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

如果应该使用特定的凭据配置文件,必须传递要使用的位于~/.aws/credentials文件中的配置文件的名称。

确保使用的凭据/角色具有访问Amazon Textract服务所需的策略。

示例:

初始化加载程序。

参数:

file_path:输入文件的文件、URL或S3路径 textract_features:用于提取的特征,每个特征应作为符合枚举`Textract_Features`的字符串传递,参见`amazon-textract-caller`包 client:boto3 textract客户端(可选) credentials_profile_name:AWS配置文件名称,如果不是默认值(可选) region_name:AWS区域,例如us-east-1(可选) endpoint_url:textract服务的端点URL(可选) linearization_config:用于输出线性化的配置应为来自`textractor`包的TextLinearizationConfig实例

Attributes

source

Methods

__init__(file_path[, textract_features, ...])

初始化加载程序。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

延迟加载文档

load()

将给定路径加载为页面。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

Parameters
  • file_path (str) –

  • textract_features (Optional[Sequence[str]]) –

  • client (Optional[Any]) –

  • credentials_profile_name (Optional[str]) –

  • region_name (Optional[str]) –

  • endpoint_url (Optional[str]) –

  • headers (Optional[Dict]) –

  • linearization_config (Optional[TextLinearizationConfig]) –

Return type

None

__init__(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None) None[source]

初始化加载程序。

参数:

file_path:输入文件的文件、URL或S3路径 textract_features:用于提取的特征,每个特征应作为符合枚举`Textract_Features`的字符串传递,参见`amazon-textract-caller`包 client:boto3 textract客户端(可选) credentials_profile_name:AWS配置文件名称,如果不是默认值(可选) region_name:AWS区域,例如us-east-1(可选) endpoint_url:textract服务的端点URL(可选) linearization_config:用于输出线性化的配置应为来自`textractor`包的TextLinearizationConfig实例

Parameters
  • file_path (str) –

  • textract_features (Optional[Sequence[str]]) –

  • client (Optional[Any]) –

  • credentials_profile_name (Optional[str]) –

  • region_name (Optional[str]) –

  • endpoint_url (Optional[str]) –

  • headers (Optional[Dict]) –

  • linearization_config (Optional[TextLinearizationConfig]) –

Return type

None

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

lazy_load() Iterator[Document][source]

延迟加载文档

Return type

Iterator[Document]

load() List[Document][source]

将给定路径加载为页面。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using AmazonTextractPDFLoader