添加新数据集#

要将新数据集添加到 sktime 内部数据集仓库,请按照以下步骤操作:

  1. 从您的 sktime 本地仓库的根目录,创建一个 <dataset-name> 文件夹:

    mkdir ./datasets/data/<dataset-name>
    
  2. 在上面的目录中,添加你的数据集文件 <dataset-name>.<EXT>,其中 <EXT> 是文件扩展名:

    • 支持的文件格式列表可以在 sktime/MANIFEST.in 文件中找到(例如,.csv.txt)。

    • 如果你的文件格式 <EXT> 不在列表中,只需将其添加到 sktime/MANIFEST.in 文件中:

    "sktime/MANIFEST.in"
    ...
    recursive-include sktime/datasets *.csv ... *.<EXT>
    ...
    
  3. sktime/datasets/_single_problem_loaders.py 中,声明一个 load_<dataset-name>(...) 函数。可以自由使用任何其他声明的函数作为分类或回归数据集的模板。

  4. sktime/datasets/__init__.py 中,将 "load_<dataset-name>" 添加到列表 __all__ 中。

  5. sktime/datasets/setup.py 中,将 "<dataset-name>" 追加到元组 included_datasets 中。