Bagel

BagelVectorStore #

Bases: BasePydanticVectorStore

Vector store for Bagel.

示例

pip install llama-index-vector-stores-bagel

from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.vector_stores.bagel import BagelVectorStore

import bagel
from bagel import Settings

server_settings = Settings(
    bagel_api_impl="rest", bagel_server_host="api.bageldb.ai"
)

client = bagel.Client(server_settings)

collection = client.get_or_create_cluster("testing_embeddings")
vector_store = BagelVectorStore(collection=collection)

Source code in llama_index/vector_stores/bagel/base.py

class BagelVectorStore(BasePydanticVectorStore):
    """Vector store for Bagel.

    示例:
        `pip install llama-index-vector-stores-bagel`

        ```python
        from llama_index.core import VectorStoreIndex, StorageContext
        from llama_index.vector_stores.bagel import BagelVectorStore

        import bagel
        from bagel import Settings

        server_settings = Settings(
            bagel_api_impl="rest", bagel_server_host="api.bageldb.ai"
        )

        client = bagel.Client(server_settings)

        collection = client.get_or_create_cluster("testing_embeddings")
        vector_store = BagelVectorStore(collection=collection)
        ```"""

    # support for Bagel specific parameters
    stores_text: bool = True
    flat_metadata: bool = True

    _collection: Any = PrivateAttr()

    def __init__(self, collection: Any, **kwargs: Any) -> None:
        """初始化BagelVectorStore。

Args:
    collection: Bagel集合。
    **kwargs: 额外的参数。
"""
        super().__init__()

        try:
            from bagel.api.Cluster import Cluster
        except ImportError:
            raise ImportError("Bagel is not installed. Please install bagel.")

        if not isinstance(collection, Cluster):
            raise ValueError("Collection must be a bagel Cluster.")

        self._collection = collection

    @classmethod
    def class_name(cls) -> str:
        return "BagelVectorStore"

    def add(self, nodes: List[BaseNode], **add_kwargs: Any) -> List[str]:
        """将带有嵌入的节点列表添加到向量存储中。

Args:
    nodes：带有嵌入的节点列表。
    kwargs：额外的参数。

Returns:
    文档id的列表。
"""
        if not self._collection:
            raise ValueError("collection not set")

        ids = []
        embeddings = []
        metadatas = []
        documents = []

        for node in nodes:
            ids.append(node.node_id)
            embeddings.append(node.get_embedding())
            metadatas.append(
                node_to_metadata_dict(
                    node,
                    remove_text=True,
                    flat_metadata=self.flat_metadata,
                )
            )
            documents.append(node.get_content(metadata_mode=MetadataMode.NONE) or "")

        self._collection.add(
            ids=ids, embeddings=embeddings, metadatas=metadatas, documents=documents
        )

        return ids

    def delete(self, ref_doc_id: str, **kwargs: Any) -> None:
        """从向量存储中删除文档。

Args:
    ref_doc_id：参考文档的id。
    kwargs：额外的参数。
"""
        if not self._collection:
            raise ValueError("collection not set")

        results = self._collection.get(where={"doc_id": ref_doc_id})
        if results and "ids" in results:
            self._collection.delete(ids=results["ids"])

    @property
    def client(self) -> Any:
        """
        获取Bagel集群。
        """
        return self._collection

    def query(self, query: VectorStoreQuery, **kwargs: Any) -> VectorStoreQueryResult:
        """查询向量存储。

Args:
    query: 要运行的查询。
    kwargs: 附加参数。

Returns:
    查询结果。
"""
        if not self._collection:
            raise ValueError("collection not set")

        if query.filters is not None:
            if "where" in kwargs:
                raise ValueError("Cannot specify both filters and where")
            where = _to_bagel_filter(query.filters)
        else:
            where = kwargs.get("where", {})

        results = self._collection.find(
            query_embeddings=query.query_embedding,
            where=where,
            n_results=query.similarity_top_k,
            **kwargs,
        )

        logger.debug(f"query results: {results}")

        nodes = []
        similarities = []
        ids = []

        for node_id, text, metadata, distance in zip(
            results["ids"][0],
            results["documents"][0],
            results["metadatas"][0],
            results["distances"][0],
        ):
            try:
                node = metadata_dict_to_node(metadata)
                node.set_content(text)
            except Exception:
                # NOTE: deprecated legacy logic for backward compatibility
                metadata, node_info, relationships = legacy_metadata_dict_to_node(
                    metadata
                )

                node = TextNode(
                    text=text,
                    id_=node_id,
                    metadata=metadata,
                    start_char_idx=node_info.get("start", None),
                    end_char_idx=node_info.get("end", None),
                    relationships=relationships,
                )

            nodes.append(node)
            similarities.append(1.0 - math.exp(-distance))
            ids.append(node_id)

            logger.debug(f"node: {node}")
            logger.debug(f"similarity: {1.0 - math.exp(-distance)}")
            logger.debug(f"id: {node_id}")

        return VectorStoreQueryResult(nodes=nodes, similarities=similarities, ids=ids)

client `property` #

client: Any

获取Bagel集群。

add #

add(nodes: List[BaseNode], **add_kwargs: Any) -> List[str]

将带有嵌入的节点列表添加到向量存储中。

Returns:

Type	Description
`List[str]`	文档id的列表。

Source code in llama_index/vector_stores/bagel/base.py

    def add(self, nodes: List[BaseNode], **add_kwargs: Any) -> List[str]:
        """将带有嵌入的节点列表添加到向量存储中。

Args:
    nodes：带有嵌入的节点列表。
    kwargs：额外的参数。

Returns:
    文档id的列表。
"""
        if not self._collection:
            raise ValueError("collection not set")

        ids = []
        embeddings = []
        metadatas = []
        documents = []

        for node in nodes:
            ids.append(node.node_id)
            embeddings.append(node.get_embedding())
            metadatas.append(
                node_to_metadata_dict(
                    node,
                    remove_text=True,
                    flat_metadata=self.flat_metadata,
                )
            )
            documents.append(node.get_content(metadata_mode=MetadataMode.NONE) or "")

        self._collection.add(
            ids=ids, embeddings=embeddings, metadatas=metadatas, documents=documents
        )

        return ids

delete #

delete(ref_doc_id: str, **kwargs: Any) -> None

从向量存储中删除文档。

Source code in llama_index/vector_stores/bagel/base.py

    def delete(self, ref_doc_id: str, **kwargs: Any) -> None:
        """从向量存储中删除文档。

Args:
    ref_doc_id：参考文档的id。
    kwargs：额外的参数。
"""
        if not self._collection:
            raise ValueError("collection not set")

        results = self._collection.get(where={"doc_id": ref_doc_id})
        if results and "ids" in results:
            self._collection.delete(ids=results["ids"])

query #

query(
    query: VectorStoreQuery, **kwargs: Any
) -> VectorStoreQueryResult

查询向量存储。

Parameters:

Name	Type	Description	Default
`query`	`VectorStoreQuery`	要运行的查询。	required
`kwargs`	`Any`	附加参数。	`{}`

Returns:

Type	Description
`VectorStoreQueryResult`	查询结果。

Source code in llama_index/vector_stores/bagel/base.py

    def query(self, query: VectorStoreQuery, **kwargs: Any) -> VectorStoreQueryResult:
        """查询向量存储。

Args:
    query: 要运行的查询。
    kwargs: 附加参数。

Returns:
    查询结果。
"""
        if not self._collection:
            raise ValueError("collection not set")

        if query.filters is not None:
            if "where" in kwargs:
                raise ValueError("Cannot specify both filters and where")
            where = _to_bagel_filter(query.filters)
        else:
            where = kwargs.get("where", {})

        results = self._collection.find(
            query_embeddings=query.query_embedding,
            where=where,
            n_results=query.similarity_top_k,
            **kwargs,
        )

        logger.debug(f"query results: {results}")

        nodes = []
        similarities = []
        ids = []

        for node_id, text, metadata, distance in zip(
            results["ids"][0],
            results["documents"][0],
            results["metadatas"][0],
            results["distances"][0],
        ):
            try:
                node = metadata_dict_to_node(metadata)
                node.set_content(text)
            except Exception:
                # NOTE: deprecated legacy logic for backward compatibility
                metadata, node_info, relationships = legacy_metadata_dict_to_node(
                    metadata
                )

                node = TextNode(
                    text=text,
                    id_=node_id,
                    metadata=metadata,
                    start_char_idx=node_info.get("start", None),
                    end_char_idx=node_info.get("end", None),
                    relationships=relationships,
                )

            nodes.append(node)
            similarities.append(1.0 - math.exp(-distance))
            ids.append(node_id)

            logger.debug(f"node: {node}")
            logger.debug(f"similarity: {1.0 - math.exp(-distance)}")
            logger.debug(f"id: {node_id}")

        return VectorStoreQueryResult(nodes=nodes, similarities=similarities, ids=ids)

Bagel

BagelVectorStore #

client property #

add #

delete #

query #

client `property` #