AmazonTextractPDFLoader#

class langchain_community.document_loaders.pdf.AmazonTextractPDFLoader(file_path: str, textract_features: Sequence[str] | None = None, client: Any | None = None, credentials_profile_name: str | None = None, region_name: str | None = None, endpoint_url: str | None = None, headers: Dict | None = None, *, linearization_config: TextLinearizationConfig | None = None)[source]#

从本地文件系统、HTTP 或 S3 加载 PDF 文件。

为了进行身份验证,AWS客户端使用以下方法自动加载凭据: https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

如果应该使用特定的凭证配置文件,您必须传递要使用的来自~/.aws/credentials文件的配置文件的名称。

确保使用的凭据/角色具有访问Amazon Textract服务所需的策略。

示例

初始化加载器。

Parameters:
  • file_path (str) – 输入文件的文件路径、URL或S3路径

  • textract_features (Sequence[str] | None) – 用于提取的特征,每个特征应作为符合枚举Textract_Features的字符串传递,参见amazon-textract-caller

  • client (Any | None) – boto3 textract 客户端(可选)

  • credentials_profile_name (str | None) – AWS 配置文件名称,如果不是默认的(可选)

  • region_name (str | None) – AWS 区域,例如 us-east-1(可选)

  • endpoint_url (str | None) – textract服务的端点URL(可选)

  • linearization_config (TextLinearizationConfig | None) – 用于输出线性化的配置 应该是来自 textractor 包的 TextLinearizationConfig 的实例

  • headers (Dict | None)

属性

source

方法

__init__(file_path[, textract_features, ...])

初始化加载器。

alazy_load()

文档的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

懒加载文档

load()

将给定路径加载为页面。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(file_path: str, textract_features: Sequence[str] | None = None, client: Any | None = None, credentials_profile_name: str | None = None, region_name: str | None = None, endpoint_url: str | None = None, headers: Dict | None = None, *, linearization_config: TextLinearizationConfig | None = None) None[source]#

初始化加载器。

Parameters:
  • file_path (str) – 输入文件的文件路径、URL或S3路径

  • textract_features (Sequence[str] | None) – 用于提取的特征,每个特征应作为符合枚举Textract_Features的字符串传递,参见amazon-textract-caller

  • client (Any | None) – boto3 textract 客户端(可选)

  • credentials_profile_name (str | None) – AWS 配置文件名称,如果不是默认的(可选)

  • region_name (str | None) – AWS 区域,例如 us-east-1(可选)

  • endpoint_url (str | None) – textract服务的端点URL(可选)

  • linearization_config (TextLinearizationConfig | None) – 用于输出线性化的配置 应该是来自 textractor 包的 TextLinearizationConfig 的实例

  • headers (Dict | None)

Return type:

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document][来源]#

懒加载文档

Return type:

迭代器[文档]

load() List[Document][source]#

将给定路径加载为页面。

Return type:

列表[文档]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用 AmazonTextractPDFLoader 的示例