mlflow.pmdarima

mlflow.pmdarima 模块提供了一个用于记录和加载 pmdarima 模型的API。该模块以以下格式导出单变量 pmdarima 模型:

Pmdarima 格式

使用 pickle 序列化的 pmdarima 模型实例。

mlflow.pyfunc

为基于pyfunc的通用部署工具使用而生成,并用于历史预测的批量审计。

示例
import pandas as pd
import mlflow
import mlflow.pyfunc
import pmdarima
from pmdarima import auto_arima


# Define a custom model class
class PmdarimaWrapper(mlflow.pyfunc.PythonModel):
    def load_context(self, context):
        self.model = context.artifacts["model"]

    def predict(self, context, model_input):
        return self.model.predict(n_periods=model_input.shape[0])


# Specify locations of source data and the model artifact
SOURCE_DATA = "https://raw.githubusercontent.com/facebook/prophet/master/examples/example_retail_sales.csv"
ARTIFACT_PATH = "model"

# Read data and recode columns
sales_data = pd.read_csv(SOURCE_DATA)
sales_data.rename(columns={"y": "sales", "ds": "date"}, inplace=True)

# Split the data into train/test
train_size = int(0.8 * len(sales_data))
train, _ = sales_data[:train_size], sales_data[train_size:]

# Create the model
model = pmdarima.auto_arima(train["sales"], seasonal=True, m=12)

# Log the model
with mlflow.start_run():
    wrapper = PmdarimaWrapper()
    mlflow.pyfunc.log_model(
        artifact_path="model",
        python_model=wrapper,
        artifacts={"model": mlflow.pyfunc.model_to_dict(model)},
    )
mlflow.pmdarima.get_default_conda_env()[源代码]
返回:

通过调用 save_model()log_model() 生成的 MLflow 模型的默认 Conda 环境。

mlflow.pmdarima.get_default_pip_requirements()[源代码]
返回:

此flavor生成的MLflow模型的默认pip需求列表。调用 save_model()log_model() 会生成一个pip环境,该环境至少包含这些需求。

mlflow.pmdarima.load_model(model_uri, dst_path=None)[源代码]

从本地文件或运行中加载 pmdarimaARIMA 模型或 Pipeline 对象。

参数:
  • model_uri – MLflow 模型的位置,采用 URI 格式。例如: - /Users/me/path/to/local/model - relative/path/to/local/model - s3://my_bucket/path/to/model - runs:/<mlflow_run_id>/run-relative/path/to/model - mlflow-artifacts:/path/to/model 有关支持的 URI 方案的更多信息,请参阅 引用工件

  • dst_path – 下载模型工件的本地文件系统路径。此目录必须已经存在。如果未指定,将创建一个本地输出路径。

返回:

一个 pmdarima 模型实例

示例
import pandas as pd
import mlflow
from mlflow.models import infer_signature
import pmdarima
from pmdarima.metrics import smape

# Specify locations of source data and the model artifact
SOURCE_DATA = "https://raw.githubusercontent.com/facebook/prophet/master/examples/example_retail_sales.csv"
ARTIFACT_PATH = "model"

# Read data and recode columns
sales_data = pd.read_csv(SOURCE_DATA)
sales_data.rename(columns={"y": "sales", "ds": "date"}, inplace=True)

# Split the data into train/test
train_size = int(0.8 * len(sales_data))
train, test = sales_data[:train_size], sales_data[train_size:]

with mlflow.start_run():
    # Create the model
    model = pmdarima.auto_arima(train["sales"], seasonal=True, m=12)

    # Calculate metrics
    prediction = model.predict(n_periods=len(test))
    metrics = {"smape": smape(test["sales"], prediction)}

    # Infer signature
    input_sample = pd.DataFrame(train["sales"])
    output_sample = pd.DataFrame(model.predict(n_periods=5))
    signature = infer_signature(input_sample, output_sample)

    # Log model
    input_example = input_sample.head()
    mlflow.pmdarima.log_model(
        model, ARTIFACT_PATH, signature=signature, input_example=input_example
    )

    # Get the model URI for loading
    model_uri = mlflow.get_artifact_uri(ARTIFACT_PATH)

# Load the model
loaded_model = mlflow.pmdarima.load_model(model_uri)
# Forecast for the next 60 days
forecast = loaded_model.predict(n_periods=60)
print(f"forecast: {forecast}")
输出
forecast:
234    382452.397246
235    380639.458720
236    359805.611219
...
mlflow.pmdarima.log_model(pmdarima_model, artifact_path, conda_env=None, code_paths=None, registered_model_name=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, await_registration_for=300, pip_requirements=None, extra_pip_requirements=None, metadata=None, **kwargs)[源代码]

pmdarimaARIMAPipeline 对象记录为当前运行的 MLflow 工件。

参数:
  • pmdarima_model – pmdarima ARIMAPipeline 模型,该模型已对时间序列进行了 fit

  • artifact_path – 运行相对的工件路径,用于保存模型实例。

  • conda_env

    一个Conda环境的字典表示形式,或者是一个Conda环境yaml文件的路径。如果提供,这将描述模型应该运行的环境。至少,它应该指定包含在 get_default_conda_env() 中的依赖项。如果为 None,则会向模型添加一个由 mlflow.models.infer_pip_requirements() 推断出的pip要求组成的Conda环境。如果需求推断失败,它会回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件,完整的Conda环境被写入 conda.yaml。以下是一个Conda环境的字典表示形式的*示例*:

    {
        "name": "mlflow-env",
        "channels": ["conda-forge"],
        "dependencies": [
            "python=3.8.15",
            {
                "pip": [
                    "pmdarima==x.y.z"
                ],
            },
        ],
    }
    

  • code_paths – 本地文件系统路径列表,指向Python文件依赖项(或包含文件依赖项的目录)。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系,则应从公共根路径声明相对导入,以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制,请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。

  • registered_model_name – 此参数可能在未来的版本中更改或移除,且不会提前警告。如果提供,将在 registered_model_name 下创建一个模型版本,如果给定名称的注册模型不存在,则同时创建一个注册模型。

  • signature – 一个描述模型输入和输出的 ModelSignature 类的实例。如果没有指定但提供了 input_example,将根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断,请将 signature 设置为 False。要手动推断模型签名,请在具有有效模型输入(例如省略目标列的训练数据集)和有效模型输出(例如在训练数据集上进行的模型预测)的数据集上调用 infer_signature(),例如:

  • input_example – 一个或多个有效的模型输入实例。输入示例用作提示,指示应向模型提供哪些数据。它将被转换为Pandas DataFrame,然后使用Pandas的面向分割的格式序列化为json,或者是一个numpy数组,其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时,输入示例用于推断模型签名。

  • await_registration_for – 等待模型版本完成创建并处于 READY 状态的秒数。默认情况下,函数等待五分钟。指定 0 或 None 以跳过等待。

  • pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如 ["pmdarima", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上 pip 需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述该模型应运行的环境。如果为 None,则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败,则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会写入模型 conda 环境(conda.yaml)文件的 pip 部分。

  • extra_pip_requirements – 可以是pip需求字符串的可迭代对象(例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上pip需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述附加的pip需求,这些需求会被追加到根据用户当前软件环境自动生成的默认pip需求集中。需求和约束会分别自动解析并写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会被写入模型conda环境(conda.yaml)文件的 pip 部分。 .. 警告:: 以下参数不能同时指定: - conda_env - pip_requirements - extra_pip_requirements 此示例 展示了如何使用 pip_requirementsextra_pip_requirements 指定pip需求。

  • metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。

  • kwargs – 用于 mlflow.models.model.Model 的额外参数

返回:

一个包含记录模型元数据的 ModelInfo 实例。

示例
import pandas as pd
import mlflow
from mlflow.models import infer_signature
import pmdarima
from pmdarima.metrics import smape

# Specify locations of source data and the model artifact
SOURCE_DATA = "https://raw.githubusercontent.com/facebook/prophet/master/examples/example_retail_sales.csv"
ARTIFACT_PATH = "model"

# Read data and recode columns
sales_data = pd.read_csv(SOURCE_DATA)
sales_data.rename(columns={"y": "sales", "ds": "date"}, inplace=True)

# Split the data into train/test
train_size = int(0.8 * len(sales_data))
train, test = sales_data[:train_size], sales_data[train_size:]

with mlflow.start_run():
    # Create the model
    model = pmdarima.auto_arima(train["sales"], seasonal=True, m=12)

    # Calculate metrics
    prediction = model.predict(n_periods=len(test))
    metrics = {"smape": smape(test["sales"], prediction)}

    # Infer signature
    input_sample = pd.DataFrame(train["sales"])
    output_sample = pd.DataFrame(model.predict(n_periods=5))
    signature = infer_signature(input_sample, output_sample)

    # Log model
    mlflow.pmdarima.log_model(model, ARTIFACT_PATH, signature=signature)
mlflow.pmdarima.save_model(pmdarima_model, path, conda_env=None, code_paths=None, mlflow_model=None, signature: ModelSignature = None, input_example: DataFrame | ndarray | dict | list | csr_matrix | csc_matrix | str | bytes | tuple = None, pip_requirements=None, extra_pip_requirements=None, metadata=None)[源代码]

将 pmdarima 的 ARIMA 模型或 Pipeline 对象保存到本地文件系统中的路径。

参数:
  • pmdarima_model – pmdarima ARIMAPipeline 模型,该模型已对时间序列进行了 fit

  • path – 序列化模型(以pickle格式)的本地路径目标将被保存。

  • conda_env

    一个Conda环境的字典表示形式,或者是一个Conda环境yaml文件的路径。如果提供,这将描述模型应该运行的环境。至少,它应该指定包含在 get_default_conda_env() 中的依赖项。如果为 None,则会向模型添加一个由 mlflow.models.infer_pip_requirements() 推断出的pip要求组成的Conda环境。如果需求推断失败,它会回退到使用 get_default_pip_requirements()。来自 conda_env 的pip要求被写入一个pip requirements.txt 文件,完整的Conda环境被写入 conda.yaml。以下是一个Conda环境的字典表示形式的*示例*:

    {
        "name": "mlflow-env",
        "channels": ["conda-forge"],
        "dependencies": [
            "python=3.8.15",
            {
                "pip": [
                    "pmdarima==x.y.z"
                ],
            },
        ],
    }
    

  • code_paths – 本地文件系统路径列表,指向Python文件依赖项(或包含文件依赖项的目录)。这些文件在加载模型时会被*前置*到系统路径中。如果为给定模型声明了依赖关系,则应从公共根路径声明相对导入,以避免在加载模型时出现导入错误。有关``code_paths``功能的详细解释、推荐的使用模式和限制,请参阅`code_paths使用指南 <https://mlflow.org/docs/latest/model/dependencies.html?highlight=code_paths#saving-extra-code-with-an-mlflow-model>`_。

  • mlflow_modelmlflow.models.Model 正在添加此风格。

  • signature – 一个描述模型输入和输出的 ModelSignature 类的实例。如果没有指定但提供了 input_example,将根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断,请将 signature 设置为 False。要手动推断模型签名,请在具有有效模型输入(例如省略目标列的训练数据集)和有效模型输出(例如在训练数据集上进行的模型预测)的数据集上调用 infer_signature(),例如:

  • input_example – 一个或多个有效的模型输入实例。输入示例用作提示,指示应向模型提供哪些数据。它将被转换为Pandas DataFrame,然后使用Pandas的面向分割的格式序列化为json,或者是一个numpy数组,其中示例将通过将其转换为列表来序列化为json。字节被base64编码。当``signature``参数为``None``时,输入示例用于推断模型签名。

  • pip_requirements – 可以是 pip 需求字符串的可迭代对象(例如 ["pmdarima", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上 pip 需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述该模型应运行的环境。如果为 None,则通过 mlflow.models.infer_pip_requirements() 从当前软件环境中推断默认的需求列表。如果需求推断失败,则回退到使用 get_default_pip_requirements()。需求和约束都会自动解析并分别写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会写入模型 conda 环境(conda.yaml)文件的 pip 部分。

  • extra_pip_requirements – 可以是pip需求字符串的可迭代对象(例如 ["pandas", "-r requirements.txt", "-c constraints.txt"]),或者是本地文件系统上pip需求文件的字符串路径(例如 "requirements.txt")。如果提供,这将描述附加的pip需求,这些需求会被追加到根据用户当前软件环境自动生成的默认pip需求集中。需求和约束会分别自动解析并写入 requirements.txtconstraints.txt 文件,并作为模型的一部分存储。需求也会被写入模型conda环境(conda.yaml)文件的 pip 部分。 .. 警告:: 以下参数不能同时指定: - conda_env - pip_requirements - extra_pip_requirements 此示例 展示了如何使用 pip_requirementsextra_pip_requirements 指定pip需求。

  • metadata – 传递给模型并在 MLmodel 文件中存储的自定义元数据字典。

示例
import pandas as pd
import mlflow
import pmdarima

# Specify locations of source data and the model artifact
SOURCE_DATA = "https://raw.githubusercontent.com/facebook/prophet/master/examples/example_retail_sales.csv"
ARTIFACT_PATH = "model"

# Read data and recode columns
sales_data = pd.read_csv(SOURCE_DATA)
sales_data.rename(columns={"y": "sales", "ds": "date"}, inplace=True)

# Split the data into train/test
train_size = int(0.8 * len(sales_data))
train, test = sales_data[:train_size], sales_data[train_size:]

with mlflow.start_run():
    # Create the model
    model = pmdarima.auto_arima(train["sales"], seasonal=True, m=12)

    # Save the model to the specified path
    mlflow.pmdarima.save_model(model, "model")