load_m5#

load_m5(extract_path=None, include_events=False, merged=True, test=False)[源代码][源代码]#

https://zenodo.org/records/12636070 获取 M5 数据集。

如果尚未下载,则下载并提取数据集。获取的数据集为标准 .csv 格式,并加载到与 sktime 兼容的内存格式(pd_multiindex_hier)中。有关数据集的更多信息,包括其结构和内容,请参阅 Notes 部分。

参数:
提取路径str, 可选 (默认=None)

如果提供路径,应使用操作系统相应的路径分隔符(例如,Unix 系统使用正斜杠 ‘/’,Windows 使用反斜杠 ‘')。如果提供了 extract_path

  • 检查所需的文件是否存在于给定的 extract_path 中。

  • 如果文件未找到,请检查 extract_path 目录下是否存在 “m5-forecasting-accuracy” 目录。这在函数之前已经使用相同路径运行过时非常有用。

  • 如果目录不存在,请下载并解压数据到 extract_path 中的 “m5-forecasting-accuracy” 文件夹。

  • 如果目录存在,则获取现有目录的路径。

如果 extract_path 是 None:
  • 检查模块级别中是否存在目录“m5-forecasting-accuracy”。

  • 如果目录存在,则获取当前目录的路径。当函数之前在没有路径的情况下已经运行过时,这很有用。

  • 如果目录不存在,请下载并解压数据到模块级别的“m5-forecasting-accuracy”文件夹中。

include_eventsbool, 可选 (默认=False)

如果 True,生成的数据集将包含与事件相关的额外列。包含这些列可以创建一个更丰富的数据集,用于分析事件对销售的影响。如果 False,数据集将排除这些列,提供一个更精简的数据版本。

合并bool, 可选 (默认=True)

确定输出格式: - 如果 True,函数返回一个合并的数据集。 - 如果 False,函数返回三个独立的数据集。

sales_train_validation, sell_prices, 和 calendar.

测试bool, 可选 (默认=False)

加载数据集的一个较小部分,该部分不包括用于测试的事件。这不应在标准使用中使用,但可能对运行测试的开发人员有用。

返回:
pd.DataFrame 或 pd.DataFrame 的元组
  • 如果 merged_datasetTrue
    数据sktime 类型的 pd.DataFrame pd_multiindex_hier

    包含时间序列的预处理数据框。

  • 如果 merged_datasetFalse,则返回一个包含三个数据帧的元组:

    sales_train_validation : sktime 类型的 pd.DataFrame,pd_multiindex_hier sell_prices : pd.DataFrame calander : pd.DataFrame

注释

数据集由三个主要文件组成: - sales_train_validation.csv:每个产品和商店的每日销售数据 - sell_prices.csv:每个产品和商店的价格数据 - calendar.csv:包括事件的日历信息

数据框将有一个多重索引,包含以下层级:- state_id - store_id - cat_id - dept_id - date