mlflow.fastai

mlflow.fastai 模块提供了一个用于记录和加载 fast.ai 模型的 API。该模块以以下格式导出 fast.ai 模型：

fastai (原生) 格式: 这是可以重新加载到 fastai 中的主要风格。
mlflow.pyfunc: 为基于通用 pyfunc 的部署工具和批量推理而生成。

mlflow.fastai.autolog(log_models=True, log_datasets=True, disable=False, exclusive=False, disable_for_unsupported_versions=False, silent=False, registered_model_name=None, extra_tags=None)[源代码]

备注

Autologging 已知与以下包版本兼容：2.4.1 <= fastai <= 2.7.17。当使用此范围之外的包版本时，Autologging 可能无法成功。

启用从 Fastai 到 MLflow 的自动日志记录。

记录损失和在 fit 函数中指定的任何其他指标，以及作为参数的优化器数据。模型检查点作为工件记录到 ‘models’ 目录中。

MLflow 还会记录 EarlyStoppingCallback 和 OneCycleScheduler 回调的参数

参数:

log_models – 如果 True，训练的模型会被记录为 MLflow 模型工件。如果 False，训练的模型不会被记录。
log_datasets – 如果 True，数据集信息将被记录到 MLflow 跟踪中。如果 False，数据集信息将不会被记录。
disable – 如果 True，禁用 Fastai 自动日志记录集成。如果 False，启用 Fastai 自动日志记录集成。
exclusive – 如果 True ，自动记录的内容不会记录到用户创建的 fluent 运行中。如果 False ，自动记录的内容会记录到活动的 fluent 运行中，这可能是用户创建的。
disable_for_unsupported_versions – 如果 True，则对未经过此版本 MLflow 客户端测试或不兼容的 fastai 版本禁用自动日志记录。
silent – 如果 True，在 Fastai 自动记录期间抑制 MLflow 的所有事件日志和警告。如果 False，在 Fastai 自动记录期间显示所有事件和警告。
registered_model_name – 如果提供，每次训练模型时，它都会被注册为具有此名称的已注册模型的新的模型版本。如果该注册模型尚不存在，则会创建它。
extra_tags – 一个字典，包含要为 autologging 创建的每个托管运行设置的额外标签。

示例

# This is a modified example from
# https://github.com/mlflow/mlflow/tree/master/examples/fastai
# demonstrating autolog capabilities.

import fastai.vision as vis
import mlflow.fastai
from mlflow import MlflowClient


def print_auto_logged_info(r):
    tags = {k: v for k, v in r.data.tags.items() if not k.startswith("mlflow.")}
    artifacts = [f.path for f in MlflowClient().list_artifacts(r.info.run_id, "model")]
    print(f"run_id: {r.info.run_id}")
    print(f"artifacts: {artifacts}")
    print(f"params: {r.data.params}")
    print(f"metrics: {r.data.metrics}")
    print(f"tags: {tags}")


def main(epochs=5, learning_rate=0.01):
    # Download and untar the MNIST data set
    path = vis.untar_data(vis.URLs.MNIST_SAMPLE)

    # Prepare, transform, and normalize the data
    data = vis.ImageDataBunch.from_folder(
        path, ds_tfms=(vis.rand_pad(2, 28), []), bs=64
    )
    data.normalize(vis.imagenet_stats)

    # Create CNN the Learner model
    model = vis.cnn_learner(data, vis.models.resnet18, metrics=vis.accuracy)

    # Enable auto logging
    mlflow.fastai.autolog()

    # Start MLflow session
    with mlflow.start_run() as run:
        model.fit(epochs, learning_rate)

    # fetch the auto logged parameters, metrics, and artifacts
    print_auto_logged_info(mlflow.get_run(run_id=run.info.run_id))


main()

输出

run_id: 5a23dcbcaa334637814dbce7a00b2f6a
artifacts: ['model/MLmodel', 'model/conda.yaml', 'model/model.fastai']
params: {'wd': 'None',
         'bn_wd': 'True',
         'opt_func': 'Adam',
         'epochs': '5', '
         train_bn': 'True',
         'num_layers': '60',
         'lr': '0.01',
         'true_wd': 'True'}
metrics: {'train_loss': 0.024,
          'accuracy': 0.99214,
          'valid_loss': 0.021}
# Tags model summary omitted too long
tags: {...}

../../_images/fastai_autolog.png — Fastai 自动记录的 MLflow 实体

mlflow.fastai.get_default_conda_env(include_cloudpickle=False)[源代码]

返回:: 通过调用 save_model() 和 log_model() 生成的 MLflow 模型的默认 Conda 环境。

mlflow.fastai.get_default_pip_requirements(include_cloudpickle=False)[源代码]

返回:: 此flavor生成的MLflow Models的默认pip需求列表。对 save_model() 和 log_model() 的调用会生成一个pip环境，该环境至少包含这些需求。

mlflow.fastai.load_model(model_uri, dst_path=None)[源代码]

从本地文件或运行中加载一个 fastai 模型。

参数:

model_uri – MLflow 模型的位置，采用 URI 格式。例如： - /Users/me/path/to/local/model - relative/path/to/local/model - s3://my_bucket/path/to/model - runs:/<mlflow_run_id>/run-relative/path/to/model 有关支持的 URI 方案的更多信息，请参阅引用工件。
dst_path – 下载模型工件的本地文件系统路径。此目录必须已经存在。如果未指定，将创建一个本地输出路径。

返回:

一个 fastai 模型（fastai.Learner 的实例）

示例

import mlflow.fastai

# Define the Learner model
model = ...

# log the fastai Leaner model
with mlflow.start_run() as run:
    model.fit(epochs, learning_rate)
    mlflow.fastai.log_model(model, "model")

# Load the model for scoring
model_uri = f"runs:/{run.info.run_id}/model"
loaded_model = mlflow.fastai.load_model(model_uri)
results = loaded_model.predict(predict_data)

将 fastai 模型记录为当前运行的 MLflow 工件。

参数:

fastai_learner – 要保存的 Fastai 模型（fastai.Learner 的一个实例）。
artifact_path – 运行相对的工件路径。
conda_env –
一个Conda环境的字典表示形式，或Conda环境yaml文件的路径。如果提供，这将描述模型应运行的环境。至少，它应指定包含在 get_default_conda_env() 中的依赖项。如果为 None，则通过 mlflow.models.infer_pip_requirements() 推断的pip要求添加一个conda环境到模型中。如果要求推断失败，则回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件，完整的conda环境被写入 conda.yaml。以下是一个conda环境的字典表示形式的*示例*:
```
{
    "name": "mlflow-env",
    "channels": ["conda-forge"],
    "dependencies": [
        "python=3.8.15",
        {
            "pip": [
                "fastai==x.y.z"
            ],
        },
    ],
}
```
code_paths – Python 文件依赖项（或包含文件依赖项的目录）的本地文件系统路径列表。这些文件在加载模型时会被前置到系统路径中。
registered_model_name – 此参数可能在未来的版本中更改或移除，且不会提前警告。如果提供，将在 registered_model_name 下创建一个模型版本，如果给定名称的注册模型不存在，则同时创建一个注册模型。
signature – 描述模型输入和输出架构。模型签名可以从具有有效模型输入（例如，省略目标列的训练数据集）和有效模型输出（例如，在训练数据集上生成的模型预测）的数据集中推断出来，例如： .. code-block:: python
input_example – 一个或多个有效的模型输入实例。输入示例用作提示，指示应向模型提供哪些数据。它将被转换为Pandas DataFrame，然后使用Pandas的面向分割的格式序列化为json，或者是一个numpy数组，其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时，输入示例用于推断模型签名。
kwargs – 传递给 fastai.Learner.export 方法的 kwargs。
await_registration_for – 等待模型版本完成创建并处于 READY 状态的秒数。默认情况下，函数等待五分钟。指定 0 或 None 以跳过等待。
pip_requirements – 可以是 pip 需求字符串的可迭代对象（例如 ["fastai", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上的 pip 需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述该模型应运行的环境。如果为 None，则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败，则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会写入模型 conda 环境（conda.yaml）文件的 pip 部分。
extra_pip_requirements – 可以是 pip 需求字符串的可迭代对象（例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上的 pip 需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述附加的 pip 需求，这些需求会被追加到根据用户当前软件环境自动生成的一组默认 pip 需求中。需求和约束会分别自动解析并写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会被写入模型的 conda 环境（conda.yaml）文件的 pip 部分。 .. 警告:: 以下参数不能同时指定： - conda_env - pip_requirements - extra_pip_requirements 这个示例展示了如何使用 pip_requirements 和 extra_pip_requirements 指定 pip 需求。
metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。

返回:

一个包含记录模型元数据的 ModelInfo 实例。

示例

import fastai.vision as vis
import mlflow.fastai
from mlflow import MlflowClient


def main(epochs=5, learning_rate=0.01):
    # Download and untar the MNIST data set
    path = vis.untar_data(vis.URLs.MNIST_SAMPLE)
    # Prepare, transform, and normalize the data
    data = vis.ImageDataBunch.from_folder(
        path, ds_tfms=(vis.rand_pad(2, 28), []), bs=64
    )
    data.normalize(vis.imagenet_stats)
    # Create the CNN Learner model
    model = vis.cnn_learner(data, vis.models.resnet18, metrics=vis.accuracy)
    # Start MLflow session and log model
    with mlflow.start_run() as run:
        model.fit(epochs, learning_rate)
        mlflow.fastai.log_model(model, "model")
    # fetch the logged model artifacts
    artifacts = [
        f.path for f in MlflowClient().list_artifacts(run.info.run_id, "model")
    ]
    print(f"artifacts: {artifacts}")


main()

输出

artifacts: ['model/MLmodel', 'model/conda.yaml', 'model/model.fastai']

将 fastai 学习器保存到本地文件系统中的路径。

参数:

fastai_learner – 要保存的 fastai 学习器。
path – 模型保存的本地路径。
conda_env –
一个Conda环境的字典表示形式，或Conda环境yaml文件的路径。如果提供，这将描述模型应运行的环境。至少，它应指定包含在 get_default_conda_env() 中的依赖项。如果为 None，则通过 mlflow.models.infer_pip_requirements() 推断的pip要求添加一个conda环境到模型中。如果要求推断失败，则回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件，完整的conda环境被写入 conda.yaml。以下是一个conda环境的字典表示形式的*示例*:
```
{
    "name": "mlflow-env",
    "channels": ["conda-forge"],
    "dependencies": [
        "python=3.8.15",
        {
            "pip": [
                "fastai==x.y.z"
            ],
        },
    ],
}
```
code_paths – Python 文件依赖项（或包含文件依赖项的目录）的本地文件系统路径列表。这些文件在加载模型时会被前置到系统路径中。
mlflow_model – MLflow 模型配置正在添加此风格。
signature – 描述模型输入和输出模式。可以从具有有效模型输入（例如，省略目标列的训练数据集）和有效模型输出（例如，在训练数据集上生成的模型预测）的数据集中推断模型签名，例如： .. code-block:: python
input_example – 一个或多个有效的模型输入实例。输入示例用作提示，指示应向模型提供哪些数据。它将被转换为Pandas DataFrame，然后使用Pandas的面向分割的格式序列化为json，或者是一个numpy数组，其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时，输入示例用于推断模型签名。
pip_requirements – 可以是 pip 需求字符串的可迭代对象（例如 ["fastai", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上的 pip 需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述该模型应运行的环境。如果为 None，则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败，则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会写入模型 conda 环境（conda.yaml）文件的 pip 部分。
extra_pip_requirements – 可以是 pip 需求字符串的可迭代对象（例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]），或者是本地文件系统上的 pip 需求文件的字符串路径（例如 "requirements.txt"）。如果提供，这将描述附加的 pip 需求，这些需求会被追加到根据用户当前软件环境自动生成的一组默认 pip 需求中。需求和约束会分别自动解析并写入 requirements.txt 和 constraints.txt 文件，并作为模型的一部分存储。需求也会被写入模型的 conda 环境（conda.yaml）文件的 pip 部分。 .. 警告:: 以下参数不能同时指定： - conda_env - pip_requirements - extra_pip_requirements 这个示例展示了如何使用 pip_requirements 和 extra_pip_requirements 指定 pip 需求。
metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。
kwargs – 传递给 Learner.save 方法的关键字参数。

示例

import os

import mlflow.fastai

# Create a fastai Learner model
model = ...

# Start MLflow session and save model to current working directory
with mlflow.start_run():
    model.fit(epochs, learning_rate)
    mlflow.fastai.save_model(model, "model")

# Load saved model for inference
model_uri = "{}/{}".format(os.getcwd(), "model")
loaded_model = mlflow.fastai.load_model(model_uri)
results = loaded_model.predict(predict_data)