Awsdocdb

AWSDocDbVectorStore #

Bases: BasePydanticVectorStore

AWS DocumentDB向量存储。

要使用，您应该同时安装： - pymongo python包 - 与DocumentDB实例关联的连接字符串

有关更多详细信息，请参考官方的向量搜索文档： https://docs.aws.amazon.com/documentdb/latest/developerguide/vector-search.html

Source code in llama_index/vector_stores/awsdocdb/base.py

class AWSDocDbVectorStore(BasePydanticVectorStore):
    """AWS DocumentDB向量存储。

要使用，您应该同时安装：
- ``pymongo`` python包
- 与DocumentDB实例关联的连接字符串

有关更多详细信息，请参考官方的向量搜索文档：
https://docs.aws.amazon.com/documentdb/latest/developerguide/vector-search.html"""

    stores_text: bool = True
    flat_metadata: bool = True

    _docdb_client: MongoClient = PrivateAttr()
    _similarity_score: AWSDocDbVectorStoreSimilarityType = PrivateAttr()
    _collection: Any = PrivateAttr()
    _embedding_key: str = PrivateAttr()
    _id_key: str = PrivateAttr()
    _text_key: str = PrivateAttr()
    _metadata_key: str = PrivateAttr()
    _insert_kwargs: Dict = PrivateAttr()
    _index_crud: DocDbIndex = PrivateAttr()

    def __init__(
        self,
        docdb_client: Optional[Any] = None,
        db_name: str = "default_db",
        index_name: str = "default_index",
        collection_name: str = "default_collection",
        id_key: str = "id",
        embedding_key: str = "embedding",
        text_key: str = "text",
        metadata_key: str = "metadata",
        insert_kwargs: Optional[Dict] = None,
        similarity_score="cosine",
        **kwargs: Any,
    ) -> None:
        """初始化向量存储。

Args:
    docdb_client：DocumentDB 客户端。
    db_name：DocumentDB 数据库名称。
    collection_name：DocumentDB 集合名称。
    id_key：用作 id 的数据字段。
    embedding_key：将包含每个文档嵌入的 DocumentDB 字段。
    text_key：将包含每个文档文本的 DocumentDB 字段。
    metadata_key：将包含每个文档元数据的 DocumentDB 字段。
    insert_kwargs：`insert` 过程中使用的 kwargs。
"""
        super().__init__()

        if docdb_client is not None:
            self._docdb_client = cast(MongoClient, docdb_client)
        else:
            raise ValueError("Must specify connection string to DocumentDB instance ")
        self._similarity_score = similarity_score
        self._collection = self._docdb_client[db_name][collection_name]
        self._embedding_key = embedding_key
        self._id_key = id_key
        self._text_key = text_key
        self._metadata_key = metadata_key
        self._insert_kwargs = insert_kwargs or {}
        self._index_crud = DocDbIndex(index_name, self._embedding_key, self._collection)

    @classmethod
    def class_name(cls) -> str:
        return "AWSDocDbVectorStore"

    def add(
        self,
        nodes: List[BaseNode],
        **add_kwargs: Any,
    ) -> List[str]:
        """将节点添加到索引中。

Args:
    节点：List[BaseNode]：带有嵌入的节点列表

Returns:
    成功添加节点的id列表。
"""
        ids = []
        data_to_insert = []
        for node in nodes:
            metadata = node_to_metadata_dict(
                node, remove_text=True, flat_metadata=self.flat_metadata
            )

            entry = {
                self._id_key: node.node_id,
                self._embedding_key: node.get_embedding(),
                self._text_key: node.get_content(metadata_mode=MetadataMode.NONE) or "",
                self._metadata_key: metadata,
            }
            data_to_insert.append(entry)
            ids.append(node.node_id)
        logger.debug("Inserting data into DocumentDB: %s", data_to_insert)
        insert_result = self._collection.insert_many(
            data_to_insert, **self._insert_kwargs
        )
        logger.debug("Result of insert: %s", insert_result)
        return ids

    def delete(self, ref_doc_id: str, **delete_kwargs: Any) -> None:
        """使用id删除节点。

Args:
    ref_doc_id（str）：要删除的文档的doc_id。
"""
        if ref_doc_id is None:
            raise ValueError("No document id provided to delete.")
        self._collection.delete_one({self._metadata_key + ".ref_doc_id": ref_doc_id})

    @property
    def client(self) -> Any:
        """返回 DocDB 客户端。"""
        return self._docdb_client

    def _query(
        self, query: VectorStoreQuery, projection: Optional[Dict[str, int]] = None
    ) -> VectorStoreQueryResult:
        params: Dict[str, Any] = {
            "vector": query.query_embedding,
            "path": self._embedding_key,
            "similarity": self._similarity_score,
            "k": query.similarity_top_k,
        }
        if query.filters:
            params["filter"] = _to_mongodb_filter(query.filters)

        if projection is None:
            pipeline = [{"$search": {"vectorSearch": params}}]
        else:
            pipeline = [{"$search": {"vectorSearch": params}}, {"$project": projection}]
        logger.debug("Running query pipeline: %s", pipeline)
        cursor = self._collection.aggregate(pipeline)  # type: ignore
        top_k_nodes = []
        top_k_ids = []
        top_k_scores = []
        for res in cursor:
            text = res.pop(self._text_key)
            vector = res.pop(self._embedding_key)
            id = res.pop(self._id_key)
            metadata_dict = res.pop(self._metadata_key)
            score = similarity(query.query_embedding, vector, self._similarity_score)

            try:
                node = metadata_dict_to_node(metadata_dict)
                node.set_content(text)
            except Exception:
                # NOTE: deprecated legacy logic for backward compatibility
                metadata, node_info, relationships = legacy_metadata_dict_to_node(
                    metadata_dict
                )

                node = TextNode(
                    text=text,
                    id_=id,
                    metadata=metadata,
                    start_char_idx=node_info.get("start", None),
                    end_char_idx=node_info.get("end", None),
                    relationships=relationships,
                )

            top_k_ids.append(id)
            top_k_nodes.append(node)
            top_k_scores.append(score)
        result = VectorStoreQueryResult(
            nodes=top_k_nodes, similarities=top_k_scores, ids=top_k_ids
        )
        logger.debug("Result of query: %s", result)
        return result

    def query(
        self,
        query: VectorStoreQuery,
        projection: Optional[Dict[str, int]] = None,
        **kwargs: Any,
    ) -> VectorStoreQueryResult:
        """查询前k个最相似节点的索引。

Args:
    query: 一个VectorStoreQuery对象。
    projection: 一个指定搜索后返回哪些字段的字典。

Returns:
    包含查询结果的VectorStoreQueryResult。
"""
        return self._query(query, projection=projection)

    def create_index(self, dimensions, similarity_score=None):
        score = self._similarity_score
        if similarity_score is not None:
            score = similarity
        return self._index_crud.create_index(dimensions, score)

    def delete_index(self):
        return self._index_crud.delete_index()

    def __del__(self) -> None:
        self.docdb_client.close()

client `property` #

client: Any

返回 DocDB 客户端。

add #

add(nodes: List[BaseNode], **add_kwargs: Any) -> List[str]

将节点添加到索引中。

Returns:

Type	Description
`List[str]`	成功添加节点的id列表。

Source code in llama_index/vector_stores/awsdocdb/base.py

    def add(
        self,
        nodes: List[BaseNode],
        **add_kwargs: Any,
    ) -> List[str]:
        """将节点添加到索引中。

Args:
    节点：List[BaseNode]：带有嵌入的节点列表

Returns:
    成功添加节点的id列表。
"""
        ids = []
        data_to_insert = []
        for node in nodes:
            metadata = node_to_metadata_dict(
                node, remove_text=True, flat_metadata=self.flat_metadata
            )

            entry = {
                self._id_key: node.node_id,
                self._embedding_key: node.get_embedding(),
                self._text_key: node.get_content(metadata_mode=MetadataMode.NONE) or "",
                self._metadata_key: metadata,
            }
            data_to_insert.append(entry)
            ids.append(node.node_id)
        logger.debug("Inserting data into DocumentDB: %s", data_to_insert)
        insert_result = self._collection.insert_many(
            data_to_insert, **self._insert_kwargs
        )
        logger.debug("Result of insert: %s", insert_result)
        return ids

delete #

delete(ref_doc_id: str, **delete_kwargs: Any) -> None

使用id删除节点。

Source code in llama_index/vector_stores/awsdocdb/base.py

    def delete(self, ref_doc_id: str, **delete_kwargs: Any) -> None:
        """使用id删除节点。

Args:
    ref_doc_id（str）：要删除的文档的doc_id。
"""
        if ref_doc_id is None:
            raise ValueError("No document id provided to delete.")
        self._collection.delete_one({self._metadata_key + ".ref_doc_id": ref_doc_id})

query #

query(
    query: VectorStoreQuery,
    projection: Optional[Dict[str, int]] = None,
    **kwargs: Any
) -> VectorStoreQueryResult

查询前k个最相似节点的索引。

Parameters:

Name	Type	Description	Default
`query`	`VectorStoreQuery`	一个VectorStoreQuery对象。	required
`projection`	`Optional[Dict[str, int]]`	一个指定搜索后返回哪些字段的字典。	`None`

Returns:

Type	Description
`VectorStoreQueryResult`	包含查询结果的VectorStoreQueryResult。

Source code in llama_index/vector_stores/awsdocdb/base.py

    def query(
        self,
        query: VectorStoreQuery,
        projection: Optional[Dict[str, int]] = None,
        **kwargs: Any,
    ) -> VectorStoreQueryResult:
        """查询前k个最相似节点的索引。

Args:
    query: 一个VectorStoreQuery对象。
    projection: 一个指定搜索后返回哪些字段的字典。

Returns:
    包含查询结果的VectorStoreQueryResult。
"""
        return self._query(query, projection=projection)

Awsdocdb

AWSDocDbVectorStore #

client property #

add #

delete #

query #

client `property` #