load_UCR_UEA_dataset#
- load_UCR_UEA_dataset(name, split=None, return_X_y=True, return_type=None, extract_path=None)[源代码][源代码]#
从 UCR UEA 时间序列档案加载数据集。
如果尚未下载,则下载并提取数据集。假定数据为标准的 .ts 格式:每一行是一个(可能是多元的)时间序列。每个维度由冒号分隔,序列中的每个值由逗号分隔。例如,请参见 sktime.datasets.data.tsc。ArrowHead 是一个单变量等长问题的示例,BasicMotions 是一个等长多元问题的示例。
- 参数:
- 名称str
数据集名称。如果给定的数据集在 tsc_dataset_names 中列出,此函数将首先在 extract_path 中查找,如果不存在,则尝试从 www.timeseriesclassification.com 下载数据,并将其保存到 extract_path。
- 分割None 或 str{“train”, “test”},可选(默认=None)
是否加载问题的训练或测试分区。默认情况下,它将两者加载到一个数据集中,否则它只查找格式为 <name>_TRAIN.ts 或 <name>_TEST.ts 的文件。
- return_X_ybool, 可选 (默认=False)
如果为 False,它会将类别标签附加到数据框中,返回两个对象。
- return_type: 有效的 Panel mtype 字符串或 None, 可选 (默认=None=”nested_univ”)
返回 X 的内存数据格式规范,None = “nested_univ” 类型。str 可以是任何支持的 sktime Panel mtype。
有关 mtypes 的列表,请参阅 datatypes.MTYPE_REGISTER;有关规范,请参阅 examples/AA_datatypes_and_datasets.ipynb
- 常用规范:
“nested_univ: 嵌套的 pd.DataFrame, pd.Series 在单元格中 “numpy3D”/”numpy3d”/”np3D”: 3D np.ndarray (实例, 变量, 时间索引) “numpy2d”/”np2d”/”numpyflat”: 2D np.ndarray (实例, 时间索引) “pd-multiindex”: 具有2级 (实例, 时间) MultiIndex 的 pd.DataFrame”
如果数据无法存储在请求的类型中,则会引发异常。
- 提取路径str, 可选 (默认=None)
查找数据的路径。如果没有提供路径,函数会在
sktime/datasets/data/
中查找。如果提供了路径,它可以是绝对的,例如 C:/Temp,或者是相对的,例如 Temp 或 ./Temp。
- 返回:
- X: pd.DataFrame
该问题的时间序列数据有 n_cases 行和 n_dimensions 或 n_dimensions+1 列。第1到 n_dimensions 列是与每个案例相关的系列。如果 return_X_y 为 False,则第 n_dimensions+1 列包含类别标签/目标变量。
- y: numpy 数组, 可选
如果 return_X_y 为 True,则返回 X 中每个案例的类别标签,如果为 False,则将类别标签附加到 X 中。
示例
>>> from sktime.datasets import load_UCR_UEA_dataset >>> X, y = load_UCR_UEA_dataset(name="ArrowHead")