7. 数据集加载工具#
为了评估数据集规模(样本数量 n_samples
和特征数量 n_features
)对算法的影响,同时控制数据的统计特性(通常是特征的相关性和信息量),也可以生成合成数据。
通用数据集API。 根据所需数据集的类型,可以使用三种主要类型的数据集接口来获取数据集。
数据集加载器。 它们可以用来加载小型标准数据集,详见 玩具数据集 部分。
数据集获取器。 它们可以用来下载和加载较大的数据集,详见 真实世界数据集 部分。
加载器和获取器函数都返回一个 Bunch
对象,该对象至少包含两个项:一个形状为 n_samples
* n_features
的数组,键为 data
(除了20newsgroups),以及一个长度为 n_samples
的numpy数组,包含目标值,键为 target
。
Bunch对象是一个字典,其键作为属性暴露。有关Bunch对象的更多信息,请参见 Bunch
。
对于几乎所有这些函数,通过将 return_X_y
参数设置为 True
,还可以将输出限制为一个仅包含数据和目标的元组。
这些数据集还包含其 DESCR
属性中的完整描述,有些还包含 feature_names
和 target_names
。详情请参见下面的数据集描述。
数据集生成函数。 它们可以用来生成受控的合成数据集,详见 生成的数据集 部分。
这些函数返回一个元组 (X, y)
,其中包含一个 n_samples
* n_features
的 numpy 数组 X
和一个长度为 n_samples
的目标数组 y
。
此外,还有其他工具用于加载其他格式或来自其他位置的数据集,这些工具在 加载其他数据集 部分进行了描述。