S3文件加载器#

class langchain_community.document_loaders.s3_file.S3FileLoader(bucket: str, key: str, *, region_name: str | None = None, api_version: str | None = None, use_ssl: bool | None = True, verify: str | bool | None = None, endpoint_url: str | None = None, aws_access_key_id: str | None = None, aws_secret_access_key: str | None = None, aws_session_token: str | None = None, boto_config: botocore.client.Config | None = None, mode: str = 'single', post_processors: List[Callable] | None = None, **unstructured_kwargs: Any)[source]#

Amazon AWS S3文件加载。

使用存储桶和键名进行初始化。

Parameters:
  • bucket (str) – S3存储桶的名称。

  • key (str) – S3对象的键。

  • region_name (可选[str]) – 与客户端关联的区域名称。 一个客户端只与一个区域关联。

  • api_version (Optional[str]) – 使用的API版本。默认情况下,botocore会在创建客户端时使用最新的API版本。只有在您希望使用客户端的先前API版本时,才需要指定此参数。

  • use_ssl (Optional[bool]) – 是否使用SSL。默认情况下,使用SSL。 请注意,并非所有服务都支持非SSL连接。

  • verify (Union[str, bool, None]) –

    是否验证SSL证书。 默认情况下,SSL证书会被验证。你可以提供以下值:

    • False - 不验证SSL证书。SSL仍将被使用(除非use_ssl为False),但SSL证书将不会被验证。

    • path/to/cert/bundle.pem - CA证书包的文件名。如果你想使用与botocore不同的CA证书包,可以指定此参数。

  • endpoint_url (可选[str]) – 用于构建客户端的完整URL。通常,botocore会自动构建与服务通信时使用的适当URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则use_ssl将被忽略。

  • aws_access_key_id (可选[str]) – 创建客户端时使用的访问密钥。这完全是可选的,如果不提供,将自动使用为会话配置的凭据。只有在您希望覆盖用于此特定客户端的凭据时,才需要提供此参数。

  • aws_secret_access_key (Optional[str]) – 创建客户端时使用的密钥。与上述aws_access_key_id的语义相同。

  • aws_session_token (可选[str]) – 创建客户端时使用的会话令牌。与上述aws_access_key_id的语义相同。

  • boto_config (botocore.client.Config) – 高级的 boto3 客户端配置选项。如果在客户端配置中指定了值,则该值将优先于环境变量和配置值,但不会优先于显式传递给方法的值。如果在会话上设置了默认配置对象,则在创建客户端时使用的配置对象将是在默认配置与此调用提供的配置上调用 merge() 的结果。

  • mode (str) – 读取文件的模式。有效的选项有:single(单页)、paged(分页)和 elements(元素)。

  • post_processors (可选[列表[可调用]]) – 应用于提取元素的后处理函数。

  • **unstructured_kwargs (Any) –

    在调用partition时传递的任意额外kwargs

方法

__init__(bucket, key, *[, region_name, ...])

使用bucket和key名称进行初始化。

alazy_load()

一个用于文档的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

加载文件。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(bucket: str, key: str, *, region_name: str | None = None, api_version: str | None = None, use_ssl: bool | None = True, verify: str | bool | None = None, endpoint_url: str | None = None, aws_access_key_id: str | None = None, aws_secret_access_key: str | None = None, aws_session_token: str | None = None, boto_config: botocore.client.Config | None = None, mode: str = 'single', post_processors: List[Callable] | None = None, **unstructured_kwargs: Any)[source]#

使用存储桶和键名进行初始化。

Parameters:
  • bucket (str) – S3存储桶的名称。

  • key (str) – S3对象的键。

  • region_name (可选[str]) – 与客户端关联的区域名称。 一个客户端只与一个区域关联。

  • api_version (Optional[str]) – 使用的API版本。默认情况下,botocore会在创建客户端时使用最新的API版本。只有在您希望使用客户端的先前API版本时,才需要指定此参数。

  • use_ssl (Optional[bool]) – 是否使用SSL。默认情况下,使用SSL。 请注意,并非所有服务都支持非SSL连接。

  • verify (Union[str, bool, None]) –

    是否验证SSL证书。 默认情况下,SSL证书会被验证。你可以提供以下值:

    • False - 不验证SSL证书。SSL仍将被使用(除非use_ssl为False),但SSL证书将不会被验证。

    • path/to/cert/bundle.pem - CA证书包的文件名。如果你想使用与botocore不同的CA证书包,可以指定此参数。

  • endpoint_url (可选[str]) – 用于构建客户端的完整URL。通常,botocore会自动构建与服务通信时使用的适当URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则use_ssl将被忽略。

  • aws_access_key_id (可选[str]) – 创建客户端时使用的访问密钥。这完全是可选的,如果不提供,将自动使用为会话配置的凭据。只有在您希望覆盖用于此特定客户端的凭据时,才需要提供此参数。

  • aws_secret_access_key (Optional[str]) – 创建客户端时使用的密钥。与上述aws_access_key_id的语义相同。

  • aws_session_token (可选[str]) – 创建客户端时使用的会话令牌。与上述aws_access_key_id的语义相同。

  • boto_config (botocore.client.Config) – 高级的 boto3 客户端配置选项。如果在客户端配置中指定了值,则该值将优先于环境变量和配置值,但不会优先于显式传递给方法的值。如果在会话上设置了默认配置对象,则在创建客户端时使用的配置对象将是在默认配置与此调用提供的配置上调用 merge() 的结果。

  • mode (str) – 读取文件的模式。有效的选项有:single(单页)、paged(分页)和 elements(元素)。

  • post_processors (可选[列表[可调用]]) – 应用于提取元素的后处理函数。

  • **unstructured_kwargs (Any) –

    在调用partition时传递的任意额外kwargs

async alazy_load() AsyncIterator[Document]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document]#

加载文件。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用 S3FileLoader 的示例