VertexAI嵌入#
- class langchain_google_vertexai.embeddings.VertexAIEmbeddings[source]#
基础类:
_VertexAICommon
,Embeddings
Google Cloud VertexAI 嵌入模型。
初始化 sentence_transformer。
- param additional_headers: Dict[str, str] | None = None#
表示模型调用的附加头信息的键值字典
- param api_endpoint: str | None = None (alias 'base_url')#
所需的API端点,例如,us-central1-aiplatform.googleapis.com
- param api_transport: str | None = None#
所需的API传输方法,可以是‘grpc’或‘rest’。如果定义了vertexai.init中的默认参数,则使用该参数。
- param client_cert_source: Callable[[], Tuple[bytes, bytes]] | None = None#
一个回调函数,返回客户端证书字节和私钥字节
- param credentials: Any = None#
默认使用的自定义凭据 (google.auth.credentials.Credentials)
- param full_model_name: str | None = None#
模型端点的全名。
- param location: str = 'us-central1'#
进行API调用时使用的默认位置。
- param max_output_tokens: int | None = None (alias 'max_tokens')#
令牌限制决定了从一个提示中输出的最大文本量。
- param max_retries: int = 6#
生成时的最大重试次数。
- param model_name: str = None (alias 'model')#
底层模型名称。
- param n: int = 1#
为每个提示生成多少个完成项。
- param project: str | None = None#
进行Vertex API调用时使用的默认GCP项目。
- param request_parallelism: int = 5#
允许向VertexAI模型发出的请求的并行量。
- param safety_settings: 'SafetySettingsType' | None = None#
用于所有生成的默认安全设置。
例如:
从langchain_google_vertexai导入HarmBlockThreshold, HarmCategory
- safety_settings = {
HarmCategory.HARM_CATEGORY_UNSPECIFIED: HarmBlockThreshold.BLOCK_NONE, HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_MEDIUM_AND_ABOVE, HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_ONLY_HIGH, HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE, HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_NONE,
}
- param seed: int | None = None#
用于生成的随机种子。
- param stop: List[str] | None = None (alias 'stop_sequences')#
生成时使用的可选停用词列表。
- param streaming: bool = False#
是否流式传输结果。
- param temperature: float | None = None#
采样温度,它控制着标记选择的随机程度。
- param top_k: int | None = None#
模型如何选择输出的标记,下一个标记是从
- param top_p: float | None = None#
从最可能到最不可能选择令牌,直到它们的总和
- param tuned_model_name: str | None = None#
调优模型的名称。如果传递了tuned_model_name,model_name将用于确定模型系列
- async aembed_documents(texts: list[str]) list[list[float]] #
异步嵌入搜索文档。
- Parameters:
文本 (列表[字符串]) – 要嵌入的文本列表。
- Returns:
嵌入列表。
- Return type:
列表[列表[浮点数]]
- async aembed_query(text: str) list[float] #
异步嵌入查询文本。
- Parameters:
文本 (str) – 要嵌入的文本。
- Returns:
嵌入。
- Return type:
列表[浮点数]
- embed(texts: List[str], batch_size: int = 0, embeddings_task_type: Literal['RETRIEVAL_QUERY', 'RETRIEVAL_DOCUMENT', 'SEMANTIC_SIMILARITY', 'CLASSIFICATION', 'CLUSTERING', 'QUESTION_ANSWERING', 'FACT_VERIFICATION'] | None = None, dimensions: int | None = None) List[List[float]] [source]#
嵌入字符串列表。
- Parameters:
texts (List[str]) – List[str] 要嵌入的字符串列表。
batch_size (int) – [int] 发送到模型的嵌入的批量大小。 如果为零,则将在第一次请求时动态检测最大批量大小,从250开始,逐步减少到5。
embeddings_task_type (Literal['RETRIEVAL_QUERY', 'RETRIEVAL_DOCUMENT', 'SEMANTIC_SIMILARITY', 'CLASSIFICATION', 'CLUSTERING', 'QUESTION_ANSWERING', 'FACT_VERIFICATION'] | None) –
[str] 可选的嵌入任务类型, 以下之一
- RETRIEVAL_QUERY - 文本是一个查询
在搜索/检索设置中。
- RETRIEVAL_DOCUMENT - 文本是一个文档
在搜索/检索设置中。
- SEMANTIC_SIMILARITY - 嵌入将用于
语义文本相似性(STS)。
CLASSIFICATION - 嵌入将用于分类。 CLUSTERING - 嵌入将用于聚类。 以下仅在预览模型中支持: QUESTION_ANSWERING FACT_VERIFICATION
dimensions (int | None) – [int] 可选。输出嵌入维度。 仅在预览模型上支持。
- Returns:
嵌入列表,每个文本对应一个。
- Return type:
列表[列表[float]]
- embed_documents(texts: List[str], batch_size: int = 0) List[List[float]] [source]#
嵌入文档列表。
- Parameters:
texts (List[str]) – List[str] 要嵌入的文本列表。
batch_size (int) – [int] 发送到模型的嵌入的批量大小。 如果为零,则将在第一次请求时动态检测最大批量大小,从250开始,逐步减少到5。
- Returns:
嵌入列表,每个文本对应一个。
- Return type:
列表[列表[float]]
- embed_image(image_path: str, contextual_text: str | None = None, dimensions: int | None = None) List[float] [source]#
自版本2.0.1起已弃用:请改用
embed_images()
。它将在langchain-google-vertexai==3.0.0中移除。嵌入一张图片。
- Parameters:
image_path (str) – 生成图像的路径(Google Cloud Storage 或 web)
for. (embeddings)
contextual_text (str | None) – 用于生成嵌入的文本。
dimensions (int | None)
- Returns:
图像的嵌入。
- Return type:
列表[float]
- embed_images(uris: List[str], contextual_text: str | None = None, dimensions: int | None = None) List[List[float]] [source]#
嵌入一组图像。
- Parameters:
uris (List[str]) – 要生成的图像的路径(本地、Google Cloud Storage 或网络)
for. (embeddings)
contextual_text (str | None) – 用于生成嵌入的文本。
dimensions (int | None)
- Returns:
图像的嵌入。
- Return type:
列表[列表[float]]
- embed_query(text: str) List[float] [source]#
嵌入一段文本。
- Parameters:
文本 (str) – 要嵌入的文本。
- Returns:
文本的嵌入。
- Return type:
列表[float]
- get_num_tokens(text: str) int #
获取文本中存在的标记数量。
用于检查输入是否适合模型的上下文窗口。
- Parameters:
文本 (字符串) – 要分词的字符串输入。
- Returns:
文本中的标记的整数数量。
- Return type:
整数
- property async_prediction_client: PredictionServiceAsyncClient#
返回 PredictionServiceClient。
- property model_type: str#
- property model_version: GoogleEmbeddingModelVersion#
- property prediction_client: PredictionServiceClient#
返回 PredictionServiceClient。
- task_executor: ClassVar[Executor | None] = FieldInfo(annotation=NoneType, required=False, default=None, exclude=True)#