.. _datasets: ========================= 数据集加载工具 ========================= .. currentmodule:: sklearn.datasets ``sklearn.datasets`` 包嵌入了一些小型的示例数据集,并提供了一些帮助函数来获取来自'现实世界'的较大数据集,这些数据集通常被机器学习社区用于算法基准测试。 为了评估数据集规模(样本数量 ``n_samples`` 和特征数量 ``n_features`` )对算法的影响,同时控制数据的统计特性(通常是特征的相关性和信息量),也可以生成合成数据。 **通用数据集API。** 根据所需数据集的类型,可以使用三种主要类型的数据集接口来获取数据集。 **数据集加载器。** 它们可以用来加载小型标准数据集,详见 :ref:`toy_datasets` 部分。 **数据集获取器。** 它们可以用来下载和加载较大的数据集,详见 :ref:`real_world_datasets` 部分。 加载器和获取器函数都返回一个 :class:`~sklearn.utils.Bunch` 对象,该对象至少包含两个项:一个形状为 ``n_samples`` * ``n_features`` 的数组,键为 ``data`` (除了20newsgroups),以及一个长度为 ``n_samples`` 的numpy数组,包含目标值,键为 ``target`` 。 Bunch对象是一个字典,其键作为属性暴露。有关Bunch对象的更多信息,请参见 :class:`~sklearn.utils.Bunch` 。 对于几乎所有这些函数,通过将 ``return_X_y`` 参数设置为 ``True`` ,还可以将输出限制为一个仅包含数据和目标的元组。 这些数据集还包含其 ``DESCR`` 属性中的完整描述,有些还包含 ``feature_names`` 和 ``target_names`` 。详情请参见下面的数据集描述。 **数据集生成函数。** 它们可以用来生成受控的合成数据集,详见 :ref:`sample_generators` 部分。 这些函数返回一个元组 ``(X, y)`` ,其中包含一个 ``n_samples`` * ``n_features`` 的 numpy 数组 ``X`` 和一个长度为 ``n_samples`` 的目标数组 ``y`` 。 此外,还有其他工具用于加载其他格式或来自其他位置的数据集,这些工具在 :ref:`loading_other_datasets` 部分进行了描述。 .. toctree:: :maxdepth: 2 datasets/toy_dataset datasets/real_world datasets/sample_generators datasets/loading_other_datasets