mlflow.lightgbm

mlflow.lightgbm 模块提供了一个用于记录和加载 LightGBM 模型的 API。该模块以以下格式导出 LightGBM 模型:

LightGBM (原生) 格式

这是可以重新加载到 LightGBM 中的主要风格。

mlflow.pyfunc

为基于通用 pyfunc 的部署工具和批量推理而生成。

mlflow.lightgbm.autolog(log_input_examples=False, log_model_signatures=True, log_models=True, log_datasets=True, disable=False, exclusive=False, disable_for_unsupported_versions=False, silent=False, registered_model_name=None, extra_tags=None)[源代码]

备注

Autologging 已知与以下包版本兼容:3.1.1 <= lightgbm <= 4.5.0。当使用此范围之外的包版本时,Autologging 可能无法成功。

启用(或禁用)并配置从 LightGBM 到 MLflow 的自动日志记录。记录以下内容:

  • lightgbm.train 中指定的参数

  • 每次迭代时的指标(如果指定了 valid_sets)。

  • 在最佳迭代时的指标(如果指定了 early_stopping_rounds 或设置了 early_stopping 回调)。

  • 特征重要性(包括“分裂”和“增益”)作为 JSON 文件和图表。

  • 训练模型,包括:
    • 有效输入的示例。

    • 推断模型的输入和输出的签名。

请注意,scikit-learn API 现在已得到支持。

参数:
  • log_input_examples – 如果 True,训练数据集中的输入示例会在训练期间与 LightGBM 模型工件一起收集并记录。如果 False,输入示例不会被记录。注意:输入示例是 MLflow 模型属性,只有在 log_models 也是 True 时才会被收集。

  • log_model_signatures – 如果 True,在训练期间会收集并记录描述模型输入和输出的 模型签名 以及 LightGBM 模型工件。如果 False,则不会记录签名。注意:模型签名是 MLflow 模型属性,只有在 log_models 也为 True 时才会收集。

  • log_models – 如果 True,训练好的模型会被记录为 MLflow 模型工件。如果 False,训练好的模型不会被记录。输入示例和模型签名(MLflow 模型的属性)在 log_modelsFalse 时也会被省略。

  • log_datasets – 如果 True,则在适用的情况下将训练和验证数据集信息记录到 MLflow 跟踪中。如果 False,则不记录数据集信息。

  • disable – 如果 True,禁用 LightGBM 自动记录集成。如果 False,启用 LightGBM 自动记录集成。

  • exclusive – 如果 True ,自动记录的内容不会记录到用户创建的 fluent 运行中。如果 False ,自动记录的内容会记录到活动的 fluent 运行中,这可能是用户创建的。

  • disable_for_unsupported_versions – 如果 True,则对未经过此版本 MLflow 客户端测试或不兼容的 lightgbm 版本禁用自动记录。

  • silent – 如果 True,在 LightGBM 自动记录期间抑制所有 MLflow 事件日志和警告。如果 False,在 LightGBM 自动记录期间显示所有事件和警告。

  • registered_model_name – 如果提供,每次训练模型时,它都会被注册为具有此名称的已注册模型的新的模型版本。如果该注册模型尚不存在,则会创建它。

  • extra_tags – 一个字典,包含要为 autologging 创建的每个托管运行设置的额外标签。

示例
import mlflow
from lightgbm import LGBMClassifier
from sklearn import datasets


def print_auto_logged_info(run):
    tags = {k: v for k, v in run.data.tags.items() if not k.startswith("mlflow.")}
    artifacts = [
        f.path for f in mlflow.MlflowClient().list_artifacts(run.info.run_id, "model")
    ]
    feature_importances = [
        f.path
        for f in mlflow.MlflowClient().list_artifacts(run.info.run_id)
        if f.path != "model"
    ]
    print(f"run_id: {run.info.run_id}")
    print(f"artifacts: {artifacts}")
    print(f"feature_importances: {feature_importances}")
    print(f"params: {run.data.params}")
    print(f"metrics: {run.data.metrics}")
    print(f"tags: {tags}")


# Load iris dataset
X, y = datasets.load_iris(return_X_y=True, as_frame=True)

# Initialize our model
model = LGBMClassifier(objective="multiclass", random_state=42)

# Auto log all MLflow entities
mlflow.lightgbm.autolog()

# Train the model
with mlflow.start_run() as run:
    model.fit(X, y)

# fetch the auto logged parameters and metrics
print_auto_logged_info(mlflow.get_run(run_id=run.info.run_id))
输出
run_id: e08dd59d57a74971b68cf78a724dfaf6
artifacts: ['model/MLmodel',
            'model/conda.yaml',
            'model/model.pkl',
            'model/python_env.yaml',
            'model/requirements.txt']
feature_importances: ['feature_importance_gain.json',
                      'feature_importance_gain.png',
                      'feature_importance_split.json',
                      'feature_importance_split.png']
params: {'boosting_type': 'gbdt',
         'categorical_feature': 'auto',
         'colsample_bytree': '1.0',
         ...
         'verbose_eval': 'warn'}
metrics: {}
tags: {}
mlflow.lightgbm.get_default_conda_env(include_cloudpickle=False)[源代码]
返回:

通过调用 save_model()log_model() 生成的 MLflow 模型的默认 Conda 环境。

mlflow.lightgbm.get_default_pip_requirements(include_cloudpickle=False)[源代码]
返回:

此flavor生成的MLflow Models的默认pip需求列表。对 save_model()log_model() 的调用会生成一个pip环境,该环境至少包含这些需求。

mlflow.lightgbm.load_model(model_uri, dst_path=None)[源代码]

从本地文件或运行中加载一个 LightGBM 模型。

参数:
  • model_uri – MLflow 模型的位置,采用 URI 格式。例如: - /Users/me/path/to/local/model - relative/path/to/local/model - s3://my_bucket/path/to/model - runs:/<mlflow_run_id>/run-relative/path/to/model 有关支持的 URI 方案的更多信息,请参阅 引用工件

  • dst_path – 下载模型工件的本地文件系统路径。此目录必须已经存在。如果未指定,将创建一个本地输出路径。

返回:

一个 LightGBM 模型(lightgbm.Booster 的一个实例)或一个 LightGBM scikit-learn 模型,取决于保存的模型类规范。

示例
from lightgbm import LGBMClassifier
from sklearn import datasets
import mlflow

# Auto log all MLflow entities
mlflow.lightgbm.autolog()

# Load iris dataset
X, y = datasets.load_iris(return_X_y=True, as_frame=True)

# Initialize our model
model = LGBMClassifier(objective="multiclass", random_state=42)

# Train the model
model.fit(X, y)

# Load model for inference
model_uri = f"runs:/{mlflow.last_active_run().info.run_id}/model"
loaded_model = mlflow.lightgbm.load_model(model_uri)
print(loaded_model.predict(X[:5]))
输出
[0 0 0 0 0]
mlflow.lightgbm.log_model(lgb_model, artifact_path, conda_env=None, code_paths=None, registered_model_name=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, await_registration_for=300, pip_requirements=None, extra_pip_requirements=None, metadata=None, **kwargs)[源代码]

将 LightGBM 模型记录为当前运行的 MLflow 工件。

参数:
  • lgb_model – LightGBM 模型(lightgbm.Booster 的一个实例)或实现 scikit-learn API 的模型将被保存。

  • artifact_path – 运行相对的工件路径。

  • conda_env – 一个Conda环境的字典表示形式或Conda环境yaml文件的路径。如果提供,这将描述模型应运行的环境。至少,它应指定包含在 get_default_conda_env() 中的依赖项。如果为 None,则会向模型添加一个由 mlflow.models.infer_pip_requirements() 推断的pip要求组成的Conda环境。如果要求推断失败,则会回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件,完整的Conda环境被写入 conda.yaml。以下是一个Conda环境的字典表示形式的*示例*:: { “name”: “mlflow-env”, “channels”: [“conda-forge”], “dependencies”: [ “python=3.8.15”, { “pip”: [ “lightgbm==x.y.z” ], }, ], }

  • code_paths – 本地文件系统路径列表,指向Python文件依赖项(或包含文件依赖项的目录)。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系,则应从公共根路径声明相对导入,以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制,请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。

  • registered_model_name – 如果指定,在 registered_model_name 下创建一个模型版本,如果给定名称的注册模型不存在,则同时创建一个注册模型。

  • signature – 一个 ModelSignature 类的实例,描述了模型的输入和输出。如果没有指定但提供了 input_example,将根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断,请将 signature 设置为 False。要手动推断模型签名,请在具有有效模型输入(例如省略了目标列的训练数据集)和有效模型输出(例如在训练数据集上进行的模型预测)的数据集上调用 infer_signature(),例如:

  • input_example – 一个或多个有效的模型输入实例。输入示例用作提示,指示应向模型提供哪些数据。它将被转换为Pandas DataFrame,然后使用Pandas的面向分割的格式序列化为json,或者是一个numpy数组,其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时,输入示例用于推断模型签名。

  • await_registration_for – 等待模型版本完成创建并处于 READY 状态的秒数。默认情况下,函数等待五分钟。指定 0 或 None 以跳过等待。

  • pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如 ["lightgbm", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上 pip 需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述该模型应运行的环境。如果为 None,则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败,则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会写入模型 conda 环境(conda.yaml)文件的 pip 部分。

  • extra_pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上的 pip 需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述附加的 pip 需求,这些需求会被追加到根据用户当前软件环境自动生成的一组默认 pip 需求中。需求和约束会分别自动解析并写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会被写入模型的 conda 环境(conda.yaml)文件的 pip 部分。 .. 警告:: 以下参数不能同时指定: - conda_env - pip_requirements - extra_pip_requirements 这个示例 展示了如何使用 pip_requirementsextra_pip_requirements 指定 pip 需求。

  • metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。

  • kwargs – 传递给 lightgbm.Booster.save_model 方法的关键字参数。

返回:

一个包含记录模型元数据的 ModelInfo 实例。

示例
from lightgbm import LGBMClassifier
from sklearn import datasets
import mlflow
from mlflow.models import infer_signature

# Load iris dataset
X, y = datasets.load_iris(return_X_y=True, as_frame=True)

# Initialize our model
model = LGBMClassifier(objective="multiclass", random_state=42)

# Train the model
model.fit(X, y)

# Create model signature
predictions = model.predict(X)
signature = infer_signature(X, predictions)

# Log the model
artifact_path = "model"
with mlflow.start_run():
    model_info = mlflow.lightgbm.log_model(model, artifact_path, signature=signature)

# Fetch the logged model artifacts
print(f"run_id: {run.info.run_id}")
client = mlflow.MlflowClient()
artifacts = [f.path for f in client.list_artifacts(run.info.run_id, artifact_path)]
print(f"artifacts: {artifacts}")
输出
artifacts: ['model/MLmodel',
            'model/conda.yaml',
            'model/model.pkl',
            'model/python_env.yaml',
            'model/requirements.txt']
mlflow.lightgbm.save_model(lgb_model, path, conda_env=None, code_paths=None, mlflow_model=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, pip_requirements=None, extra_pip_requirements=None, metadata=None)[源代码]

将 LightGBM 模型保存到本地文件系统中的路径。

参数:
  • lgb_model – LightGBM 模型(lightgbm.Booster 的一个实例)或实现 scikit-learn API 的模型将被保存。

  • path – 模型保存的本地路径。

  • conda_env – 一个Conda环境的字典表示形式或Conda环境yaml文件的路径。如果提供,这将描述模型应运行的环境。至少,它应指定包含在 get_default_conda_env() 中的依赖项。如果为 None,则会向模型添加一个由 mlflow.models.infer_pip_requirements() 推断的pip要求组成的Conda环境。如果要求推断失败,则会回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件,完整的Conda环境被写入 conda.yaml。以下是一个Conda环境的字典表示形式的*示例*:: { “name”: “mlflow-env”, “channels”: [“conda-forge”], “dependencies”: [ “python=3.8.15”, { “pip”: [ “lightgbm==x.y.z” ], }, ], }

  • code_paths – 本地文件系统路径列表,指向Python文件依赖项(或包含文件依赖项的目录)。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系,则应从公共根路径声明相对导入,以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制,请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。

  • mlflow_modelmlflow.models.Model 正在添加此风格。

  • signature – 一个 ModelSignature 类的实例,描述了模型的输入和输出。如果没有指定但提供了 input_example,将根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断,请将 signature 设置为 False。要手动推断模型签名,请在具有有效模型输入(例如省略了目标列的训练数据集)和有效模型输出(例如在训练数据集上进行的模型预测)的数据集上调用 infer_signature(),例如:

  • input_example – 一个或多个有效的模型输入实例。输入示例用作提示,指示应向模型提供哪些数据。它将被转换为Pandas DataFrame,然后使用Pandas的面向分割的格式序列化为json,或者是一个numpy数组,其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时,输入示例用于推断模型签名。

  • pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如 ["lightgbm", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上 pip 需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述该模型应运行的环境。如果为 None,则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败,则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会写入模型 conda 环境(conda.yaml)文件的 pip 部分。

  • extra_pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上的 pip 需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述附加的 pip 需求,这些需求会被追加到根据用户当前软件环境自动生成的一组默认 pip 需求中。需求和约束会分别自动解析并写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会被写入模型的 conda 环境(conda.yaml)文件的 pip 部分。 .. 警告:: 以下参数不能同时指定: - conda_env - pip_requirements - extra_pip_requirements 这个示例 展示了如何使用 pip_requirementsextra_pip_requirements 指定 pip 需求。

  • metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。

示例
from pathlib import Path
from lightgbm import LGBMClassifier
from sklearn import datasets
import mlflow

# Load iris dataset
X, y = datasets.load_iris(return_X_y=True, as_frame=True)

# Initialize our model
model = LGBMClassifier(objective="multiclass", random_state=42)

# Train the model
model.fit(X, y)

# Save the model
path = "model"
mlflow.lightgbm.save_model(model, path)

# Load model for inference
loaded_model = mlflow.lightgbm.load_model(Path.cwd() / path)
print(loaded_model.predict(X[:5]))
输出
[0 0 0 0 0]