langchain_community.document_loaders.s3_file.S3FileLoader

class langchain_community.document_loaders.s3_file.S3FileLoader(bucket: str, key: str, *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None, mode: str = 'single', post_processors: Optional[List[Callable]] = None, **unstructured_kwargs: Any)[source]

从`Amazon AWS S3`加载文件。

初始化使用存储桶和键名。

Parameters
  • bucket (str) – S3存储桶的名称。

  • key (str) – S3对象的键。

  • region_name (Optional[str]) – 与客户端关联的区域的名称。 客户端与单个区域关联。

  • api_version (Optional[str]) – 要使用的API版本。默认情况下,botocore在创建客户端时将使用最新的API版本。只有在要使用客户端的先前API版本时才需要指定此参数。

  • use_ssl (Optional[bool]) – 是否使用SSL。默认情况下,使用SSL。 请注意,并非所有服务都支持非SSL连接。

  • verify (Union[str, bool, None]) –

    是否验证SSL证书。 默认情况下,会验证SSL证书。您可以提供以下值:

    • False - 不验证SSL证书。仍将使用SSL(除非use_ssl为False),但不会验证SSL证书。

    • path/to/cert/bundle.pem - CA证书捆绑包的文件名,用于使用。如果要使用与botocore使用的不同CA证书捆绑包,则可以指定此参数。

  • endpoint_url (Optional[str]) – 用于构建客户端的完整URL。 通常,botocore在与服务通信时会自动构建适当的URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则将忽略``use_ssl``。

  • aws_access_key_id (Optional[str]) – 创建客户端时要使用的访问密钥。 这是完全可选的,如果未提供,则会自动使用会话配置的凭据。只有在要覆盖用于此特定客户端的凭据时才需要提供此参数。

  • aws_secret_access_key (Optional[str]) – 创建客户端时要使用的秘密密钥。与上面的aws_access_key_id具有相同的语义。

  • aws_session_token (Optional[str]) – 创建客户端时要使用的会话令牌。与上面的aws_access_key_id具有相同的语义。

  • boto_config (botocore.client.Config) – 高级boto3客户端配置选项。如果在客户端配置中指定了一个值,其值将优先于环境变量和配置值,但不会优先于显式传递给方法的值。如果在会话上设置了默认配置对象,则在创建客户端时使用的配置对象将是使用提供给此调用的配置调用``merge()``的结果。

  • mode (str) – 读取文件的模式。有效选项为:single、paged和elements。

  • post_processors (Optional[List[Callable]]) – 要应用于提取的元素的后处理函数。

  • **unstructured_kwargs

    在调用`partition`时传递的任意额外kwargs。

  • unstructured_kwargs (Any) –

Methods

__init__(bucket, key, *[, region_name, ...])

初始化使用存储桶和键名。

alazy_load()

一个用于文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

加载文件。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成块。块作为文档返回。

__init__(bucket: str, key: str, *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None, mode: str = 'single', post_processors: Optional[List[Callable]] = None, **unstructured_kwargs: Any)[source]

初始化使用存储桶和键名。

Parameters
  • bucket (str) – S3存储桶的名称。

  • key (str) – S3对象的键。

  • region_name (Optional[str]) – 与客户端关联的区域的名称。 客户端与单个区域关联。

  • api_version (Optional[str]) – 要使用的API版本。默认情况下,botocore在创建客户端时将使用最新的API版本。只有在要使用客户端的先前API版本时才需要指定此参数。

  • use_ssl (Optional[bool]) – 是否使用SSL。默认情况下,使用SSL。 请注意,并非所有服务都支持非SSL连接。

  • verify (Union[str, bool, None]) –

    是否验证SSL证书。 默认情况下,会验证SSL证书。您可以提供以下值:

    • False - 不验证SSL证书。仍将使用SSL(除非use_ssl为False),但不会验证SSL证书。

    • path/to/cert/bundle.pem - CA证书捆绑包的文件名,用于使用。如果要使用与botocore使用的不同CA证书捆绑包,则可以指定此参数。

  • endpoint_url (Optional[str]) – 用于构建客户端的完整URL。 通常,botocore在与服务通信时会自动构建适当的URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则将忽略``use_ssl``。

  • aws_access_key_id (Optional[str]) – 创建客户端时要使用的访问密钥。 这是完全可选的,如果未提供,则会自动使用会话配置的凭据。只有在要覆盖用于此特定客户端的凭据时才需要提供此参数。

  • aws_secret_access_key (Optional[str]) – 创建客户端时要使用的秘密密钥。与上面的aws_access_key_id具有相同的语义。

  • aws_session_token (Optional[str]) – 创建客户端时要使用的会话令牌。与上面的aws_access_key_id具有相同的语义。

  • boto_config (botocore.client.Config) – 高级boto3客户端配置选项。如果在客户端配置中指定了一个值,其值将优先于环境变量和配置值,但不会优先于显式传递给方法的值。如果在会话上设置了默认配置对象,则在创建客户端时使用的配置对象将是使用提供给此调用的配置调用``merge()``的结果。

  • mode (str) – 读取文件的模式。有效选项为:single、paged和elements。

  • post_processors (Optional[List[Callable]]) – 要应用于提取的元素的后处理函数。

  • **unstructured_kwargs

    在调用`partition`时传递的任意额外kwargs。

  • unstructured_kwargs (Any) –

async alazy_load() AsyncIterator[Document]

一个用于文档的惰性加载器。

Return type

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

lazy_load() Iterator[Document]

加载文件。

Return type

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

Return type

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用!

参数:
text_splitter: 用于分割文档的TextSplitter实例。

默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

Parameters

text_splitter (Optional[TextSplitter]) –

Return type

List[Document]

Examples using S3FileLoader