AstraDBLoader#

class langchain_astradb.document_loaders.AstraDBLoader(collection_name: str, *, token: str | TokenProvider | None = None, api_endpoint: str | None = None, environment: str | None = None, namespace: str | None = None, filter_criteria: dict[str, Any] | None = None, projection: dict[str, Any] | None = <object object>, find_options: dict[str, Any] | None = None, limit: int | None = None, nb_prefetched: int = <object object>, page_content_mapper: Callable[[dict], str] = <function dumps>, metadata_mapper: Callable[[dict], dict[str, Any]] | None = None, ext_callers: list[tuple[str | None, str | None] | str | None] | None = None, astra_db_client: AstraDB | None = None, async_astra_db_client: AsyncAstraDB | None = None)[source]#

加载DataStax Astra DB文档。

Parameters:
  • collection_name (str) – 要使用的Astra DB集合的名称。

  • token (str | TokenProvider | None) – 用于Astra DB的API令牌,可以是字符串形式,也可以是astrapy.authentication.TokenProvider的子类。如果未提供,则会检查环境变量ASTRA_DB_APPLICATION_TOKEN。

  • api_endpoint (str | None) – API端点的完整URL,例如 https://-us-east1.apps.astra.datastax.com。如果未提供, 则检查环境变量 ASTRA_DB_API_ENDPOINT。

  • environment (str | None) – 一个字符串,指定目标数据API的环境。 如果省略,默认为“prod”(Astra DB生产环境)。 其他值在astrapy.constants.Environment枚举类中。

  • namespace (str | None) – 集合所在的命名空间(也称为keyspace)。 如果未提供,则检查环境变量 ASTRA_DB_KEYSPACE。 默认为数据库的“默认命名空间”。

  • filter_criteria (dict[str, Any] | None) – 用于过滤文档的条件。

  • projection (dict[str, Any] | None) – 指定要返回的字段。如果未提供,读取操作将回退到Data API的默认投影。

  • find_options (dict[str, Any] | None) – 查询的附加选项。 从版本0.3.5开始已弃用。 对于限制,请使用`limit`。其他选项将被忽略。

  • limit (int | None) – 读取查询中返回的最大文档数。

  • nb_prefetched (int) – 预取文档的最大数量。 从 v. 0.3.5 开始忽略:astrapy v1.0+ 不支持此功能。

  • page_content_mapper (Callable[[dict], str]) – 应用于集合文档以创建LangChain文档的page_content的函数。默认为json.dumps

  • metadata_mapper (Callable[[dict], dict[str, Any]] | None) –

    应用于集合文档以创建LangChain文档的metadata的函数。默认为返回

    命名空间、API端点和集合名称。

  • ext_callers (list[tuple[str | None, str | None] | str | None] | None) – 一个或多个调用者身份,用于在User-Agent头中标识Data API调用。这是一个(名称,版本)对的列表,如果没有提供版本信息,则只是字符串,如果提供,将成为与此组件相关的所有API请求中User-Agent字符串的前导部分。

  • astra_db_client (AstraDB | None) – 从版本0.3.5开始已弃用。 请使用‘token’、‘api_endpoint’以及可选的‘environment’。 你可以传递一个已经创建的‘astrapy.db.AstraDB’实例 (作为‘token’、‘api_endpoint’和‘environment’的替代方案)。

  • async_astra_db_client (AsyncAstraDB | None) – 从版本0.3.5开始已弃用。 请使用‘token’、‘api_endpoint’和可选的‘environment’。 你可以传递一个已经创建的‘astrapy.db.AsyncAstraDB’实例 (作为‘token’、‘api_endpoint’和‘environment’的替代)。

方法

__init__(collection_name, *[, token, ...])

加载 DataStax Astra DB 文档。

alazy_load()

文档的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

一个用于文档的懒加载器。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(collection_name: str, *, token: str | TokenProvider | None = None, api_endpoint: str | None = None, environment: str | None = None, namespace: str | None = None, filter_criteria: dict[str, Any] | None = None, projection: dict[str, Any] | None = <object object>, find_options: dict[str, Any] | None = None, limit: int | None = None, nb_prefetched: int = <object object>, page_content_mapper: Callable[[dict], str] = <function dumps>, metadata_mapper: Callable[[dict], dict[str, Any]] | None = None, ext_callers: list[tuple[str | None, str | None] | str | None] | None = None, astra_db_client: AstraDB | None = None, async_astra_db_client: AsyncAstraDB | None = None) None[来源]#

加载DataStax Astra DB文档。

Parameters:
  • collection_name (str) – 要使用的Astra DB集合的名称。

  • token (str | TokenProvider | None) – 用于Astra DB的API令牌,可以是字符串形式,也可以是astrapy.authentication.TokenProvider的子类。如果未提供,则会检查环境变量ASTRA_DB_APPLICATION_TOKEN。

  • api_endpoint (str | None) – API端点的完整URL,例如 https://-us-east1.apps.astra.datastax.com。如果未提供, 则检查环境变量 ASTRA_DB_API_ENDPOINT。

  • environment (str | None) – 一个字符串,指定目标数据API的环境。 如果省略,默认为“prod”(Astra DB生产环境)。 其他值在astrapy.constants.Environment枚举类中。

  • namespace (str | None) – 集合所在的命名空间(也称为keyspace)。 如果未提供,则检查环境变量 ASTRA_DB_KEYSPACE。 默认为数据库的“默认命名空间”。

  • filter_criteria (dict[str, Any] | None) – 用于过滤文档的条件。

  • projection (dict[str, Any] | None) – 指定要返回的字段。如果未提供,读取操作将回退到Data API的默认投影。

  • find_options (dict[str, Any] | None) – 查询的附加选项。 从版本0.3.5开始已弃用。 对于限制,请使用`limit`。其他选项将被忽略。

  • limit (int | None) – 读取查询中返回的最大文档数。

  • nb_prefetched (int) – 预取文档的最大数量。 从 v. 0.3.5 开始忽略:astrapy v1.0+ 不支持此功能。

  • page_content_mapper (Callable[[dict], str]) – 应用于集合文档以创建LangChain文档的page_content的函数。默认为json.dumps

  • metadata_mapper (Callable[[dict], dict[str, Any]] | None) –

    应用于集合文档以创建LangChain文档的metadata的函数。默认为返回

    命名空间、API端点和集合名称。

  • ext_callers (list[tuple[str | None, str | None] | str | None] | None) – 一个或多个调用者身份,用于在User-Agent头中标识Data API调用。这是一个(名称,版本)对的列表,如果没有提供版本信息,则只是字符串,如果提供,将成为与此组件相关的所有API请求中User-Agent字符串的前导部分。

  • astra_db_client (AstraDB | None) – 从版本0.3.5开始已弃用。 请使用‘token’、‘api_endpoint’以及可选的‘environment’。 你可以传递一个已经创建的‘astrapy.db.AstraDB’实例 (作为‘token’、‘api_endpoint’和‘environment’的替代方案)。

  • async_astra_db_client (AsyncAstraDB | None) – 从版本0.3.5开始已弃用。 请使用‘token’、‘api_endpoint’和可选的‘environment’。 你可以传递一个已经创建的‘astrapy.db.AsyncAstraDB’实例 (作为‘token’、‘api_endpoint’和‘environment’的替代)。

Return type:

async alazy_load() AsyncIterator[Document][source]#

文档的懒加载器。

Return type:

AsyncIterator[Document]

async aload() list[Document][source]#

将数据加载到Document对象中。

Return type:

列表[Document]

lazy_load() Iterator[Document][source]#

文档的懒加载器。

Return type:

迭代器[文档]

load() list[Document]#

将数据加载到Document对象中。

Return type:

列表[Document]

load_and_split(text_splitter: TextSplitter | None = None) list[Document]#

加载文档并将其分割成块。块以文档形式返回。

不要重写此方法。它应该被视为已弃用!

Parameters:

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。

Returns:

文档列表。

Return type:

列表[Document]

使用AstraDBLoader的示例