mlflow.xgboost

mlflow.xgboost 模块提供了一个用于记录和加载 XGBoost 模型的 API。该模块以以下格式导出 XGBoost 模型：

XGBoost (原生) 格式: 这是可以重新加载到 XGBoost 中的主要风格。
mlflow.pyfunc: 为基于通用 pyfunc 的部署工具和批量推理而生成。

mlflow.xgboost.autolog(importance_types=None, log_input_examples=False, log_model_signatures=True, log_models=True, log_datasets=True, disable=False, exclusive=False, disable_for_unsupported_versions=False, silent=False, registered_model_name=None, model_format='xgb', extra_tags=None)[源代码]

备注

Autologging 已知与以下包版本兼容：1.4.2 <= xgboost <= 2.1.1。当与该范围外的包版本一起使用时，Autologging 可能无法成功。

启用（或禁用）并配置从 XGBoost 到 MLflow 的自动日志记录。记录以下内容：

xgboost.train 中指定的参数

每次迭代时的指标（如果指定了 evals）。

在最佳迭代时的指标（如果指定了 early_stopping_rounds）。

特征重要性以 JSON 文件和图表形式展示。

训练模型，包括：

有效输入的示例。

推断模型的输入和输出的签名。

请注意，scikit-learn API 现在已得到支持。

参数:

importance_types – 要记录的重要性类型。如果未指定，默认为 ["weight"]。
log_input_examples – 如果 True，训练数据集中的输入示例将与 XGBoost 模型工件一起在训练期间收集并记录。如果 False，则不记录输入示例。注意：输入示例是 MLflow 模型属性，只有在 log_models 也为 True 时才会收集。
log_model_signatures – 如果 True，在训练期间会收集并记录描述模型输入和输出的 模型签名 以及 XGBoost 模型工件。如果 False，则不会记录签名。注意：模型签名是 MLflow 模型属性，只有在 log_models 也是 True 时才会收集。
log_models – 如果 True，训练好的模型会被记录为 MLflow 模型工件。如果 False，训练好的模型不会被记录。输入示例和模型签名（MLflow 模型的属性）在 log_models 为 False 时也会被省略。
log_datasets – 如果 True，则在适用的情况下将训练和验证数据集信息记录到 MLflow 跟踪中。如果 False，则不记录数据集信息。
disable – 如果 True，禁用 XGBoost 自动记录集成。如果 False，启用 XGBoost 自动记录集成。
exclusive – 如果 True ，自动记录的内容不会记录到用户创建的 fluent 运行中。如果 False ，自动记录的内容会记录到活动的 fluent 运行中，这可能是用户创建的。
disable_for_unsupported_versions – 如果 True，则对未经过此版本 MLflow 客户端测试或不兼容的 xgboost 版本禁用自动日志记录。
silent – 如果 True，在 XGBoost 自动记录期间抑制所有 MLflow 事件日志和警告。如果 False，在 XGBoost 自动记录期间显示所有事件和警告。
registered_model_name – 如果提供，每次训练模型时，它都会被注册为具有此名称的已注册模型的新的模型版本。如果该注册模型尚不存在，则会创建它。
model_format – 模型保存的文件格式。
extra_tags – 一个字典，包含要为 autologging 创建的每个托管运行设置的额外标签。

mlflow.xgboost.get_default_conda_env()[源代码]

返回:: 通过调用 save_model() 和 log_model() 生成的 MLflow 模型的默认 Conda 环境。

mlflow.xgboost.get_default_pip_requirements()[源代码]

返回:: 此flavor生成的MLflow Models的默认pip需求列表。对 save_model() 和 log_model() 的调用会生成一个pip环境，该环境至少包含这些需求。

mlflow.xgboost.load_model(model_uri, dst_path=None)[源代码]

从本地文件或运行中加载一个XGBoost模型。

参数:

model_uri – MLflow 模型的位置，采用 URI 格式。例如： - /Users/me/path/to/local/model - relative/path/to/local/model - s3://my_bucket/path/to/model - runs:/<mlflow_run_id>/run-relative/path/to/model 有关支持的 URI 方案的更多信息，请参阅引用工件。
dst_path – 下载模型工件的本地文件系统路径。此目录必须已存在。如果未指定，将创建一个本地输出路径。

返回:

一个 XGBoost 模型。根据保存的模型类规范，可以是 xgboost.Booster 的实例或 XGBoost scikit-learn 模型。

mlflow.xgboost.log_model(xgb_model, artifact_path, conda_env=None, code_paths=None, registered_model_name=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, await_registration_for=300, pip_requirements=None, extra_pip_requirements=None, model_format='xgb', metadata=None, **kwargs)[源代码]

将 XGBoost 模型记录为当前运行的 MLflow 工件。

参数:

xgb_model – 要保存的 XGBoost 模型（xgboost.Booster 的实例或实现 scikit-learn API 的模型）。
artifact_path – 运行相对的工件路径。
conda_env –
一个Conda环境的字典表示形式，或Conda环境yaml文件的路径。如果提供，这将描述模型应运行的环境。至少，它应指定包含在 get_default_conda_env() 中的依赖项。如果为 None，则会向模型添加一个conda环境，该环境的pip要求由 mlflow.models.infer_pip_requirements() 推断。如果要求推断失败，则回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件，完整的conda环境被写入 conda.yaml。以下是一个conda环境的字典表示形式的*示例*:
```
{
    "name": "mlflow-env",
    "channels": ["conda-forge"],
    "dependencies": [
        "python=3.8.15",
        {
            "pip": [
                "xgboost==x.y.z"
            ],
        },
    ],
}
```
code_paths – 本地文件系统路径列表，指向Python文件依赖项（或包含文件依赖项的目录）。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系，则应从公共根路径声明相对导入，以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制，请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。
registered_model_name – 如果指定，在 registered_model_name 下创建一个模型版本，如果给定名称的注册模型不存在，则同时创建一个注册模型。
signature – 一个 ModelSignature 类的实例，描述了模型的输入和输出。如果没有指定但提供了 input_example，将根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断，请将 signature 设置为 False。要手动推断模型签名，请在具有有效模型输入（例如省略了目标列的训练数据集）和有效模型输出（例如在训练数据集上进行的模型预测）的数据集上调用 infer_signature()，例如：
input_example – 一个或多个有效的模型输入实例。输入示例用作提示，指示应向模型提供哪些数据。它将被转换为Pandas DataFrame，然后使用Pandas的面向分割的格式序列化为json，或者是一个numpy数组，其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时，输入示例用于推断模型签名。
await_registration_for – 等待模型版本完成创建并处于 READY 状态的秒数。默认情况下，函数等待五分钟。指定 0 或 None 以跳过等待。
pip_requirements – 可以是 pip 需求字符串的可迭代对象（例如 ["xgboost", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上 pip 需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述该模型应运行的环境。如果为 None，则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败，则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会写入模型 conda 环境（conda.yaml）文件的 pip 部分。
extra_pip_requirements – 可以是pip需求字符串的可迭代对象（例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上的pip需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述附加的pip需求，这些需求会被追加到根据用户当前软件环境自动生成的一组默认pip需求中。需求和约束分别自动解析并写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会被写入模型的conda环境（conda.yaml）文件的 pip 部分。 .. 警告:: 以下参数不能同时指定： - conda_env - pip_requirements - extra_pip_requirements 此示例展示了如何使用 pip_requirements 和 extra_pip_requirements 指定pip需求。
model_format – 模型保存的文件格式。
metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。
kwargs – 传递给 xgboost.Booster.save_model 方法的关键字参数。

返回: 一个包含记录模型元数据的 ModelInfo 实例。

将一个 XGBoost 模型保存到本地文件系统的一个路径中。

参数:

xgb_model – 要保存的 XGBoost 模型（xgboost.Booster 的实例或实现 scikit-learn API 的模型）。
path – 模型保存的本地路径。
conda_env –
一个Conda环境的字典表示形式，或Conda环境yaml文件的路径。如果提供，这将描述模型应运行的环境。至少，它应指定包含在 get_default_conda_env() 中的依赖项。如果为 None，则会向模型添加一个conda环境，该环境的pip要求由 mlflow.models.infer_pip_requirements() 推断。如果要求推断失败，则回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件，完整的conda环境被写入 conda.yaml。以下是一个conda环境的字典表示形式的*示例*:
```
{
    "name": "mlflow-env",
    "channels": ["conda-forge"],
    "dependencies": [
        "python=3.8.15",
        {
            "pip": [
                "xgboost==x.y.z"
            ],
        },
    ],
}
```
code_paths – 本地文件系统路径列表，指向Python文件依赖项（或包含文件依赖项的目录）。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系，则应从公共根路径声明相对导入，以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制，请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。
mlflow_model – mlflow.models.Model 正在添加此风格。
signature – 一个 ModelSignature 类的实例，描述了模型的输入和输出。如果没有指定但提供了 input_example，将根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断，请将 signature 设置为 False。要手动推断模型签名，请在具有有效模型输入（例如省略了目标列的训练数据集）和有效模型输出（例如在训练数据集上进行的模型预测）的数据集上调用 infer_signature()，例如：
input_example – 一个或多个有效的模型输入实例。输入示例用作提示，指示应向模型提供哪些数据。它将被转换为Pandas DataFrame，然后使用Pandas的面向分割的格式序列化为json，或者是一个numpy数组，其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时，输入示例用于推断模型签名。
pip_requirements – 可以是 pip 需求字符串的可迭代对象（例如 ["xgboost", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上 pip 需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述该模型应运行的环境。如果为 None，则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败，则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会写入模型 conda 环境（conda.yaml）文件的 pip 部分。
extra_pip_requirements – 可以是pip需求字符串的可迭代对象（例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上的pip需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述附加的pip需求，这些需求会被追加到根据用户当前软件环境自动生成的一组默认pip需求中。需求和约束分别自动解析并写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会被写入模型的conda环境（conda.yaml）文件的 pip 部分。 .. 警告:: 以下参数不能同时指定： - conda_env - pip_requirements - extra_pip_requirements 此示例展示了如何使用 pip_requirements 和 extra_pip_requirements 指定pip需求。
model_format – 模型保存的文件格式。
metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。