langchain_community.document_loaders.pdf
.AmazonTextractPDFLoader¶
- class langchain_community.document_loaders.pdf.AmazonTextractPDFLoader(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None)[source]¶
从本地文件系统、HTTP或S3加载`PDF`文件。
要进行身份验证,AWS客户端使用以下方法自动加载凭据: https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html
如果应该使用特定的凭据配置文件,必须传递要使用的位于~/.aws/credentials文件中的配置文件的名称。
确保使用的凭据/角色具有访问Amazon Textract服务所需的策略。
- 示例:
初始化加载程序。
- 参数:
file_path:输入文件的文件、URL或S3路径 textract_features:用于提取的特征,每个特征应作为符合枚举`Textract_Features`的字符串传递,参见`amazon-textract-caller`包 client:boto3 textract客户端(可选) credentials_profile_name:AWS配置文件名称,如果不是默认值(可选) region_name:AWS区域,例如us-east-1(可选) endpoint_url:textract服务的端点URL(可选) linearization_config:用于输出线性化的配置应为来自`textractor`包的TextLinearizationConfig实例
Attributes
source
Methods
__init__
(file_path[, textract_features, ...])初始化加载程序。
一个用于文档的惰性加载器。
aload
()将数据加载到文档对象中。
延迟加载文档
load
()将给定路径加载为页面。
load_and_split
([text_splitter])加载文档并分割成块。块作为文档返回。
- Parameters
file_path (str) –
textract_features (Optional[Sequence[str]]) –
client (Optional[Any]) –
credentials_profile_name (Optional[str]) –
region_name (Optional[str]) –
endpoint_url (Optional[str]) –
headers (Optional[Dict]) –
linearization_config (Optional[TextLinearizationConfig]) –
- Return type
None
- __init__(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None) None [source]¶
初始化加载程序。
- 参数:
file_path:输入文件的文件、URL或S3路径 textract_features:用于提取的特征,每个特征应作为符合枚举`Textract_Features`的字符串传递,参见`amazon-textract-caller`包 client:boto3 textract客户端(可选) credentials_profile_name:AWS配置文件名称,如果不是默认值(可选) region_name:AWS区域,例如us-east-1(可选) endpoint_url:textract服务的端点URL(可选) linearization_config:用于输出线性化的配置应为来自`textractor`包的TextLinearizationConfig实例
- Parameters
file_path (str) –
textract_features (Optional[Sequence[str]]) –
client (Optional[Any]) –
credentials_profile_name (Optional[str]) –
region_name (Optional[str]) –
endpoint_url (Optional[str]) –
headers (Optional[Dict]) –
linearization_config (Optional[TextLinearizationConfig]) –
- Return type
None
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块作为文档返回。
不要覆盖此方法。应该被视为已弃用!
- 参数:
- text_splitter: 用于分割文档的TextSplitter实例。
默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- Parameters
text_splitter (Optional[TextSplitter]) –
- Return type
List[Document]