mlflow.openai
mlflow.openai
模块提供了一个用于记录和加载 OpenAI 模型的 API。
Databricks 上的 OpenAI 凭证管理
警告
使用 MLFLOW_OPENAI_SECRET_SCOPE
指定模型服务的密钥已被弃用。请改用 基于密钥的环境变量。
当这种风格在Databricks上记录模型时,如果设置了 MLFLOW_OPENAI_SECRET_SCOPE
环境变量,它会保存一个包含以下内容的YAML文件,命名为 openai.yaml
。
OPENAI_API_BASE: {scope}:openai_api_base
OPENAI_API_KEY: {scope}:openai_api_key
OPENAI_API_KEY_PATH: {scope}:openai_api_key_path
OPENAI_API_TYPE: {scope}:openai_api_type
OPENAI_ORGANIZATION: {scope}:openai_organization
{scope}
是MLFLOW_OPENAI_SECRET_SCOPE
环境变量的值。这些键是
openai-python
包用于配置 API 客户端的环境变量。这些值是对存储环境变量值的秘密的引用。
当记录的模型在 Databricks 上提供服务时,每个秘密将被解析并设置为相应的环境变量。有关如何在 Databricks 上设置秘密,请参阅 https://docs.databricks.com/security/secrets/index.html。
- mlflow.openai.autolog(log_input_examples=False, log_model_signatures=False, log_models=False, log_datasets=False, disable=False, exclusive=False, disable_for_unsupported_versions=False, silent=False, registered_model_name=None, extra_tags=None, log_traces=True)[源代码]
备注
实验性功能:此功能可能在未来的版本中无警告地更改或移除。
备注
Autologging 已知与以下包版本兼容:
1.17.0
<=openai
<=1.51.2
。当使用此范围之外的包版本时,Autologging 可能无法成功。启用(或禁用)并配置从 OpenAI 到 MLflow 的自动日志记录。如果 OpenAI 版本 < 1.0,则引发
MlflowException
。- 参数:
log_input_examples – 如果
True
,推理数据中的输入示例将与Langchain模型工件一起收集并记录在推理过程中。如果False
,则不记录输入示例。注意:输入示例是MLflow模型属性,只有在log_models
也是True
时才会收集。log_model_signatures – 如果
True
,在推理期间,描述模型输入和输出的模型签名
将与 OpenAI 模型工件一起收集和记录。如果False
,则不记录签名。注意:模型签名是 MLflow 模型属性,只有在log_models
也为True
时才会收集。log_models – 如果
True
,OpenAI 模型会被记录为 MLflow 模型工件。如果False
,OpenAI 模型不会被记录。当log_models
为False
时,输入示例和模型签名(MLflow 模型的属性)也会被省略。log_datasets – 如果
True
,则在适用的情况下将数据集信息记录到 MLflow 跟踪中。如果False
,则不记录数据集信息。disable – 如果
True
,禁用 OpenAI 自动日志集成。如果False
,启用 OpenAI 自动日志集成。exclusive – 如果
True
,自动记录的内容不会记录到用户创建的 fluent 运行中。如果False
,自动记录的内容会记录到活动的 fluent 运行中,这可能是用户创建的。disable_for_unsupported_versions – 如果
True
,则对未在此版本的 MLflow 客户端上测试或不兼容的 OpenAI 版本禁用自动日志记录。silent – 如果
True
,在 OpenAI 自动记录期间抑制所有 MLflow 事件日志和警告。如果False
,在 OpenAI 自动记录期间显示所有事件和警告。registered_model_name – 如果提供,每次训练模型时,它都会被注册为具有此名称的已注册模型的新的模型版本。如果该注册模型尚不存在,则会创建它。
extra_tags – 一个字典,包含要为 autologging 创建的每个托管运行设置的额外标签。
log_traces – 如果
True
,则记录 OpenAI 模型的跟踪信息。如果False
,则在推理过程中不收集跟踪信息。默认为True
。
- mlflow.openai.get_default_conda_env()[源代码]
备注
实验性功能:此功能可能在未来的版本中无警告地更改或移除。
- 返回:
通过调用
save_model()
和log_model()
生成的 MLflow 模型的默认 Conda 环境。
- mlflow.openai.get_default_pip_requirements()[源代码]
备注
实验性功能:此功能可能在未来的版本中无警告地更改或移除。
- 返回:
此flavor生成的MLflow Models的默认pip需求列表。对
save_model()
和log_model()
的调用会生成一个pip环境,该环境至少包含这些需求。
- mlflow.openai.load_model(model_uri, dst_path=None)[源代码]
备注
实验性功能:此功能可能在未来的版本中无警告地更改或移除。
从本地文件或运行中加载一个 OpenAI 模型。
- 参数:
model_uri – MLflow 模型的位置,采用 URI 格式。例如: -
/Users/me/path/to/local/model
-relative/path/to/local/model
-s3://my_bucket/path/to/model
-runs:/<mlflow_run_id>/run-relative/path/to/model
有关支持的 URI 方案的更多信息,请参阅 引用工件。dst_path – 下载模型工件的本地文件系统路径。此目录必须已经存在。如果未指定,将创建一个本地输出路径。
- 返回:
表示 OpenAI 模型的字典。
- mlflow.openai.log_model(model, task, artifact_path, conda_env=None, code_paths=None, registered_model_name=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, await_registration_for=300, pip_requirements=None, extra_pip_requirements=None, metadata=None, example_no_conversion=None, **kwargs)[源代码]
备注
实验性功能:此功能可能在未来的版本中无警告地更改或移除。
将 OpenAI 模型记录为当前运行的 MLflow 工件。
- 参数:
model – OpenAI 模型名称或引用实例,例如
openai.Model.retrieve("gpt-4o-mini")
。task – 模型正在执行的任务,例如
openai.chat.completions
或'chat.completions'
。artifact_path – 运行相对的工件路径。
conda_env –
一个Conda环境的字典表示形式,或Conda环境yaml文件的路径。如果提供,这将描述模型应运行的环境。至少,它应指定包含在
get_default_conda_env()
中的依赖项。如果为None
,则通过mlflow.models.infer_pip_requirements()
推断的pip要求添加一个conda环境到模型中。如果要求推断失败,则回退到使用get_default_pip_requirements()
。来自conda_env
的pip要求被写入一个piprequirements.txt
文件,完整的conda环境被写入conda.yaml
。以下是一个conda环境的字典表示形式的*示例*:{ "name": "mlflow-env", "channels": ["conda-forge"], "dependencies": [ "python=3.8.15", { "pip": [ "openai==x.y.z" ], }, ], }
code_paths – 本地文件系统路径列表,指向Python文件依赖项(或包含文件依赖项的目录)。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系,则应从公共根路径声明相对导入,以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制,请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。
registered_model_name – 如果指定,在
registered_model_name
下创建一个模型版本,如果给定名称的注册模型不存在,则同时创建一个注册模型。signature –
ModelSignature
描述了模型的输入和输出Schema
。模型签名可以从具有有效模型输入(例如,省略目标列的训练数据集)和有效模型输出(例如,在训练数据集上生成的模型预测)的数据集中推断
,例如: .. code-block:: pythoninput_example – 一个或多个有效的模型输入实例。输入示例用作提示,指示应向模型提供哪些数据。它将被转换为Pandas DataFrame,然后使用Pandas的面向分割的格式序列化为json,或者是一个numpy数组,其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时,输入示例用于推断模型签名。
await_registration_for – 等待模型版本完成创建并处于
READY
状态的秒数。默认情况下,函数等待五分钟。指定 0 或 None 以跳过等待。pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如
["openai", "-r requirements.txt", "-c constraints.txt"]
),或者是本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt"
)。如果提供,这将描述模型应运行的环境。如果为None
,则通过mlflow.models.infer_pip_requirements()
从当前软件环境中推断出默认的需求列表。如果需求推断失败,则回退到使用get_default_pip_requirements()
。需求和约束都会自动解析并分别写入requirements.txt
和constraints.txt
文件,并作为模型的一部分存储。需求也会写入模型 conda 环境(conda.yaml
)文件的pip
部分。extra_pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如
["pandas", "-r requirements.txt", "-c constraints.txt"]
),或者是本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt"
)。如果提供,这将描述附加的 pip 需求,这些需求会被追加到根据用户当前软件环境自动生成的一组默认 pip 需求中。需求和约束会分别自动解析并写入requirements.txt
和constraints.txt
文件,并作为模型的一部分存储。需求也会被写入模型的 conda 环境(conda.yaml
)文件的pip
部分。 .. 警告:: 以下参数不能同时指定: -conda_env
-pip_requirements
-extra_pip_requirements
这个示例 展示了如何使用pip_requirements
和extra_pip_requirements
指定 pip 需求。metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。
example_no_conversion – 此参数已被弃用,并将在未来的版本中移除。它不再使用,可以安全地移除。输入示例不再被转换。
kwargs – OpenAI 任务特定的关键字参数,例如
messages``(有关此参数的更多详细信息,请参阅 :ref:`mlflow.openai.messages`)或用于聊天完成的 ``top_p
值。
- 返回:
一个包含记录模型元数据的
ModelInfo
实例。
import mlflow import openai # Chat with mlflow.start_run(): info = mlflow.openai.log_model( model="gpt-4o-mini", task=openai.chat.completions, messages=[{"role": "user", "content": "Tell me a joke about {animal}."}], artifact_path="model", ) model = mlflow.pyfunc.load_model(info.model_uri) df = pd.DataFrame({"animal": ["cats", "dogs"]}) print(model.predict(df)) # Embeddings with mlflow.start_run(): info = mlflow.openai.log_model( model="text-embedding-ada-002", task=openai.embeddings, artifact_path="embeddings", ) model = mlflow.pyfunc.load_model(info.model_uri) print(model.predict(["hello", "world"]))
- mlflow.openai.save_model(model, task, path, conda_env=None, code_paths=None, mlflow_model=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, pip_requirements=None, extra_pip_requirements=None, metadata=None, example_no_conversion=None, **kwargs)[源代码]
备注
实验性功能:此功能可能在未来的版本中无警告地更改或移除。
将一个 OpenAI 模型保存到本地文件系统的一个路径中。
- 参数:
model – OpenAI 模型名称。
task – 模型正在执行的任务,例如
openai.chat.completions
或'chat.completions'
。path – 模型保存的本地路径。
conda_env –
一个Conda环境的字典表示形式,或Conda环境yaml文件的路径。如果提供,这将描述模型应运行的环境。至少,它应指定包含在
get_default_conda_env()
中的依赖项。如果为None
,则通过mlflow.models.infer_pip_requirements()
推断的pip要求添加一个conda环境到模型中。如果要求推断失败,则回退到使用get_default_pip_requirements()
。来自conda_env
的pip要求被写入一个piprequirements.txt
文件,完整的conda环境被写入conda.yaml
。以下是一个conda环境的字典表示形式的*示例*:{ "name": "mlflow-env", "channels": ["conda-forge"], "dependencies": [ "python=3.8.15", { "pip": [ "openai==x.y.z" ], }, ], }
code_paths – 本地文件系统路径列表,指向Python文件依赖项(或包含文件依赖项的目录)。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系,则应从公共根路径声明相对导入,以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制,请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。
mlflow_model –
mlflow.models.Model
正在添加此风格。signature –
ModelSignature
描述了模型的输入和输出Schema
。模型签名可以从具有有效模型输入(例如,省略目标列的训练数据集)和有效模型输出(例如,在训练数据集上生成的模型预测)的数据集中推断
,例如: .. code-block:: pythoninput_example – 一个或多个有效的模型输入实例。输入示例用作提示,指示应向模型提供哪些数据。它将被转换为Pandas DataFrame,然后使用Pandas的面向分割的格式序列化为json,或者是一个numpy数组,其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时,输入示例用于推断模型签名。
pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如
["openai", "-r requirements.txt", "-c constraints.txt"]
),或者是本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt"
)。如果提供,这将描述模型应运行的环境。如果为None
,则通过mlflow.models.infer_pip_requirements()
从当前软件环境中推断出默认的需求列表。如果需求推断失败,则回退到使用get_default_pip_requirements()
。需求和约束都会自动解析并分别写入requirements.txt
和constraints.txt
文件,并作为模型的一部分存储。需求也会写入模型 conda 环境(conda.yaml
)文件的pip
部分。extra_pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如
["pandas", "-r requirements.txt", "-c constraints.txt"]
),或者是本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt"
)。如果提供,这将描述附加的 pip 需求,这些需求会被追加到根据用户当前软件环境自动生成的一组默认 pip 需求中。需求和约束会分别自动解析并写入requirements.txt
和constraints.txt
文件,并作为模型的一部分存储。需求也会被写入模型的 conda 环境(conda.yaml
)文件的pip
部分。 .. 警告:: 以下参数不能同时指定: -conda_env
-pip_requirements
-extra_pip_requirements
这个示例 展示了如何使用pip_requirements
和extra_pip_requirements
指定 pip 需求。metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。
example_no_conversion – 此参数已被弃用,并将在未来的版本中移除。它不再使用,可以安全地移除。输入示例不再被转换。
kwargs – OpenAI 任务特定的关键字参数,例如
messages``(有关此参数的更多详细信息,请参阅 :ref:`mlflow.openai.messages`)或用于聊天完成的 ``top_p
值。
import mlflow import openai # Chat mlflow.openai.save_model( model="gpt-4o-mini", task=openai.chat.completions, messages=[{"role": "user", "content": "Tell me a joke."}], path="model", ) # Completions mlflow.openai.save_model( model="text-davinci-002", task=openai.completions, prompt="{text}. The general sentiment of the text is", path="model", ) # Embeddings mlflow.openai.save_model( model="text-embedding-ada-002", task=openai.embeddings, path="model", )