CloudBlobLoader#
- class langchain_community.document_loaders.blob_loaders.cloud_blob_loader.CloudBlobLoader(url: str | AnyPath, *, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Sequence[str] | None = None, show_progress: bool = False)[source]#
从云URL或文件加载blobs:
示例:
loader = CloudBlobLoader("s3://mybucket/id") for blob in loader.yield_blobs(): print(blob)
使用URL初始化并了解如何对其进行全局匹配。
使用 [CloudPathLib](https://cloudpathlib.drivendata.org/).
- Parameters:
url (str | AnyPath) – 从云URL加载。 支持 s3://, az://, gs://, file:// 协议。 如果未提供协议,则假定为本地文件。 如果提供了文件路径,则忽略 glob/exclude/suffixes。
glob (str) – 相对于指定路径的Glob模式 默认设置为选择所有非隐藏文件
exclude (Sequence[str]) – 从结果中排除的模式,使用glob语法
suffixes (Sequence[str] | None) – 提供以仅保留具有这些后缀的文件 当希望保留具有不同后缀的文件时非常有用 后缀必须包含点,例如“.txt”
show_progress (bool) – 如果为真,将在加载文件时显示进度条。 这会在加载之前强制遍历所有匹配的文件以进行计数。
示例
方法
__init__
(url, *[, glob, exclude, suffixes, ...])使用URL和如何对其进行全局初始化。
计算匹配模式的文件数量而不加载它们。
from_path
(path, *[, encoding, mime_type, ...])从路径对象加载 blob。
生成与请求模式匹配的blobs。
- __init__(url: str | AnyPath, *, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Sequence[str] | None = None, show_progress: bool = False) None [source]#
使用URL初始化并了解如何对其进行全局匹配。
使用 [CloudPathLib](https://cloudpathlib.drivendata.org/).
- Parameters:
url (str | AnyPath) – 从云URL加载。 支持 s3://, az://, gs://, file:// 协议。 如果未提供协议,则假定为本地文件。 如果提供了文件路径,则忽略 glob/exclude/suffixes。
glob (str) – 相对于指定路径的Glob模式 默认设置为选择所有非隐藏文件
exclude (Sequence[str]) – 从结果中排除的模式,使用glob语法
suffixes (Sequence[str] | None) – 提供以仅保留具有这些后缀的文件 当希望保留具有不同后缀的文件时非常有用 后缀必须包含点,例如“.txt”
show_progress (bool) – 如果为真,将在加载文件时显示进度条。 这会在加载之前强制遍历所有匹配的文件以进行计数。
- Return type:
无
示例
- classmethod from_path(path: AnyPath, *, encoding: str = 'utf-8', mime_type: str | None = None, guess_type: bool = True, metadata: dict | None = None) Blob [来源]#
从类似路径的对象加载blob。
- Parameters:
path (AnyPath) – 要读取的文件的路径对象 支持 s3://, az://, gs://, file:// 协议。 如果未提供协议,则假定为本地文件。
encoding (str) – 如果要将字节解码为字符串,则使用的编码
mime_type (str | None) – 如果提供,将设置为数据的MIME类型
guess_type (bool) – 如果为True,当未提供mime-type时,将从文件扩展名猜测mimetype
metadata (dict | None) – 与blob关联的元数据
- Returns:
Blob 实例
- Return type: