7. 数据集加载工具#

为了评估数据集规模(样本数量 n_samples 和特征数量 n_features )对算法的影响,同时控制数据的统计特性(通常是特征的相关性和信息量),也可以生成合成数据。

通用数据集API。 根据所需数据集的类型,可以使用三种主要类型的数据集接口来获取数据集。

数据集加载器。 它们可以用来加载小型标准数据集,详见 玩具数据集 部分。

数据集获取器。 它们可以用来下载和加载较大的数据集,详见 真实世界数据集 部分。

加载器和获取器函数都返回一个 Bunch 对象,该对象至少包含两个项:一个形状为 n_samples * n_features 的数组,键为 data (除了20newsgroups),以及一个长度为 n_samples 的numpy数组,包含目标值,键为 target

Bunch对象是一个字典,其键作为属性暴露。有关Bunch对象的更多信息,请参见 Bunch

对于几乎所有这些函数,通过将 return_X_y 参数设置为 True ,还可以将输出限制为一个仅包含数据和目标的元组。

这些数据集还包含其 DESCR 属性中的完整描述,有些还包含 feature_namestarget_names 。详情请参见下面的数据集描述。

数据集生成函数。 它们可以用来生成受控的合成数据集,详见 生成的数据集 部分。 这些函数返回一个元组 (X, y) ,其中包含一个 n_samples * n_features 的 numpy 数组 X 和一个长度为 n_samples 的目标数组 y

此外,还有其他工具用于加载其他格式或来自其他位置的数据集,这些工具在 加载其他数据集 部分进行了描述。