Skip to main content

Databricks Vector Search

Databricks Vector Search 是一个无服务器的相似度搜索引擎,允许您在向量数据库中存储数据的向量表示,包括元数据。使用 Vector Search,您可以从由 Unity Catalog 管理的 Delta 表中创建自动更新的向量搜索索引,并使用简单的 API 进行查询以返回最相似的向量。

本笔记本展示了如何在 Databricks Vector Search 中使用 LangChain。

安装 databricks-vectorsearch 和本笔记本中使用的相关 Python 包。

%pip install --upgrade --quiet  langchain-core databricks-vectorsearch langchain-openai tiktoken

使用 OpenAIEmbeddings 进行嵌入。

import getpass
import os
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

拆分文档并获取嵌入。

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
emb_dim = len(embeddings.embed_query("hello"))

设置 Databricks Vector Search 客户端

from databricks.vector_search.client import VectorSearchClient
vsc = VectorSearchClient()

创建 Vector Search 端点

此端点用于创建和访问向量搜索索引。

vsc.create_endpoint(name="vector_search_demo_endpoint", endpoint_type="STANDARD")

创建直接向量访问索引

直接向量访问索引支持通过 REST API 或 SDK 直接读取和写入嵌入向量和元数据。对于此索引,您自己管理嵌入向量和索引更新。

vector_search_endpoint_name = "vector_search_demo_endpoint"
index_name = "ml.llm.demo_index"
index = vsc.create_direct_access_index(
endpoint_name=vector_search_endpoint_name,
index_name=index_name,
primary_key="id",
embedding_dimension=emb_dim,
embedding_vector_column="text_vector",
schema={
"id": "string",
"text": "string",
"text_vector": "array<float>",
"source": "string",
},
)
index.describe()
from langchain_community.vectorstores import DatabricksVectorSearch
dvs = DatabricksVectorSearch(
index, text_column="text", embedding=embeddings, columns=["source"]
)

将文档添加到索引中

dvs.add_documents(docs)

相似度搜索

query = "What did the president say about Ketanji Brown Jackson"
dvs.similarity_search(query)
print(docs[0].page_content)

使用 Delta Sync Index

您还可以使用 DatabricksVectorSearch 在 Delta Sync Index 中进行搜索。Delta Sync Index 会自动从 Delta 表同步。您不需要手动调用 add_text/add_documents。有关更多详细信息,请参阅 Databricks 文档页面

dvs_delta_sync = DatabricksVectorSearch("catalog_name.schema_name.delta_sync_index")
dvs_delta_sync.similarity_search(query)

Was this page helpful?


You can leave detailed feedback on GitHub.