OpenAIEmbeddings#
- class langchain_community.embeddings.openai.OpenAIEmbeddings[来源]#
基础类:
BaseModel
,Embeddings
自版本0.0.9起已弃用:请改用
:class:`~langchain_openai.OpenAIEmbeddings`
。在langchain-community==1.0之前不会移除。OpenAI嵌入模型。
要使用,您应该安装
openai
python包,并设置环境变量OPENAI_API_KEY
为您的API密钥,或者将其作为命名参数传递给构造函数。示例
from langchain_community.embeddings import OpenAIEmbeddings openai = OpenAIEmbeddings(openai_api_key="my-api-key")
为了使用Microsoft Azure端点的库,您需要设置OPENAI_API_TYPE、OPENAI_API_BASE、OPENAI_API_KEY和OPENAI_API_VERSION。OPENAI_API_TYPE必须设置为'azure',其他参数对应于您的端点属性。此外,部署名称必须作为模型参数传递。
示例
import os os.environ["OPENAI_API_TYPE"] = "azure" os.environ["OPENAI_API_BASE"] = "https://<your-endpoint.openai.azure.com/" os.environ["OPENAI_API_KEY"] = "your AzureOpenAI key" os.environ["OPENAI_API_VERSION"] = "2023-05-15" os.environ["OPENAI_PROXY"] = "http://your-corporate-proxy:8080" from langchain_community.embeddings.openai import OpenAIEmbeddings embeddings = OpenAIEmbeddings( deployment="your-embeddings-deployment-name", model="your-embeddings-model-name", openai_api_base="https://your-endpoint.openai.azure.com/", openai_api_type="azure", ) text = "This is a test query." query_result = embeddings.embed_query(text)
通过解析和验证来自关键字参数的输入数据来创建一个新模型。
如果输入数据无法验证以形成有效模型,则引发 [ValidationError][pydantic_core.ValidationError]。
self 被显式地设为仅位置参数,以允许 self 作为字段名称。
- param allowed_special: Literal['all'] | Set[str] = {}#
- param chunk_size: int = 1000#
每批嵌入的最大文本数量
- param default_headers: Mapping[str, str] | None = None#
- param default_query: Mapping[str, object] | None = None#
- param deployment: str | None = 'text-embedding-ada-002'#
- param disallowed_special: Literal['all'] | Set[str] | Sequence[str] = 'all'#
- param embedding_ctx_length: int = 8191#
一次嵌入的最大令牌数。
- param headers: Any = None#
- param http_client: Any | None = None#
可选的 httpx.Client。
- param max_retries: int = 2#
生成时的最大重试次数。
- param model: str = 'text-embedding-ada-002'#
- param model_kwargs: Dict[str, Any] [Optional]#
保存任何适用于create调用但未明确指定的模型参数。
- param openai_api_base: str | None = None (alias 'base_url')#
API请求的基本URL路径,如果不使用代理或服务模拟器,请留空。
- param openai_api_key: str | None = None (alias 'api_key')#
如果未提供,则自动从环境变量 OPENAI_API_KEY 推断。
- param openai_api_type: str | None = None#
- param openai_api_version: str | None = None (alias 'api_version')#
如果未提供,则自动从环境变量 OPENAI_API_VERSION 推断。
- param openai_organization: str | None = None (alias 'organization')#
如果未提供,则自动从环境变量 OPENAI_ORG_ID 推断。
- param openai_proxy: str | None = None#
- param request_timeout: float | Tuple[float, float] | Any | None = None (alias 'timeout')#
请求OpenAI完成API的超时时间。可以是浮点数、httpx.Timeout或None。
- param retry_max_seconds: int = 20#
重试之间等待的最大秒数
- param retry_min_seconds: int = 4#
重试之间等待的最小秒数
- param show_progress_bar: bool = False#
是否在嵌入时显示进度条。
- param skip_empty: bool = False#
在嵌入时是否跳过空字符串或引发错误。默认情况下不跳过。
- param tiktoken_enabled: bool = True#
对于非OpenAI实现的embeddings API,请将此设置为False,例如 –extensions openai 扩展用于 text-generation-webui
- param tiktoken_model_name: str | None = None#
在使用此类时传递给tiktoken的模型名称。 Tiktoken用于计算文档中的令牌数量,以限制它们不超过某个限制。默认情况下,当设置为None时,这将与嵌入模型名称相同。然而,在某些情况下,您可能希望将此嵌入类与tiktoken不支持的模型名称一起使用。这可能包括在使用Azure嵌入或使用许多模型提供商之一时,这些提供商暴露了一个类似OpenAI的API,但使用不同的模型。在这些情况下,为了避免在调用tiktoken时出错,您可以在此处指定要使用的模型名称。
- async aembed_documents(texts: List[str], chunk_size: int | None = 0) List[List[float]] [source]#
异步调用OpenAI的嵌入端点以进行嵌入搜索文档。
- Parameters:
texts (List[str]) – 要嵌入的文本列表。
chunk_size (int | None) – 嵌入的块大小。如果为None,将使用类指定的块大小。
- Returns:
嵌入列表,每个文本对应一个。
- Return type:
列表[列表[float]]
- async aembed_query(text: str) List[float] [来源]#
异步调用OpenAI的嵌入端点以嵌入查询文本。
- Parameters:
文本 (str) – 要嵌入的文本。
- Returns:
文本的嵌入。
- Return type:
列表[float]
- embed_documents(texts: List[str], chunk_size: int | None = 0) List[List[float]] [source]#
调用OpenAI的嵌入端点以嵌入搜索文档。
- Parameters:
texts (List[str]) – 要嵌入的文本列表。
chunk_size (int | None) – 嵌入的块大小。如果为None,将使用类指定的块大小。
- Returns:
嵌入列表,每个文本对应一个。
- Return type:
列表[列表[float]]
使用OpenAIEmbeddings的示例