make_gaussian_quantiles#

sklearn.datasets.make_gaussian_quantiles(*, mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None)#

生成各向同性高斯和按分位数标记的样本。

这个分类数据集是通过采用多维标准正态分布并定义由嵌套的同心多维球体分隔的类来构建的,使得每个类中大致有相同数量的样本(\(\chi^2\) 分布的分位数)。

有关使用示例,请参见 绘制随机生成的分类数据集

更多信息请参阅 用户指南

Parameters:
mean形如 (n_features,) 的类数组, default=None

多维正态分布的均值。 如果为 None,则使用原点 (0, 0, …)。

covfloat, default=1.0

协方差矩阵将是这个值乘以单位矩阵。该数据集仅生成对称正态分布。

n_samplesint, default=100

在各个类之间平均分配的总点数。

n_featuresint, default=2

每个样本的特征数量。

n_classesint, default=3

类的数量。

shufflebool, default=True

打乱样本。

random_stateint, RandomState 实例或 None, default=None

确定数据集创建的随机数生成。为多个函数调用传递一个 int 以获得可重复的输出。 请参阅 术语表

Returns:
X形如 (n_samples, n_features) 的 ndarray

生成的样本。

y形如 (n_samples,) 的 ndarray

每个样本的分位数成员的整数标签。

Notes

该数据集来自 Zhu 等人的研究 [1]。

References

[1]
  1. Zhu, H. Zou, S. Rosset, T. Hastie, “Multi-class AdaBoost”, 2009.

Examples

>>> from sklearn.datasets import make_gaussian_quantiles
>>> X, y = make_gaussian_quantiles(random_state=42)
>>> X.shape
(100, 2)
>>> y.shape
(100,)
>>> list(y[:5])
[2, 0, 1, 0, 2]