make_blobs#
- sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None, return_centers=False)#
生成用于聚类的各向同性高斯斑点。
有关使用示例,请参见 绘制随机生成的分类数据集 。
更多信息请参阅 用户指南 。
- Parameters:
- n_samplesint 或 array-like, 默认=100
如果是 int,它是均匀分布在各簇中的总点数。 如果是 array-like,序列中的每个元素表示每个簇的样本数。
Changed in version v0.20: 现在可以将 array-like 传递给
n_samples
参数- n_featuresint, 默认=2
每个样本的特征数量。
- centersint 或 array-like of shape (n_centers, n_features), 默认=None
要生成的中心数量,或固定的中心位置。 如果 n_samples 是 int 且 centers 是 None,则生成 3 个中心。 如果 n_samples 是 array-like,centers 必须是 None 或长度等于 n_samples 的数组。
- cluster_stdfloat 或 array-like of float, 默认=1.0
簇的标准差。
- center_boxtuple of float (min, max), 默认=(-10.0, 10.0)
当中心随机生成时,每个簇中心的边界框。
- shufflebool, 默认=True
打乱样本。
- random_stateint, RandomState 实例或 None, 默认=None
确定用于数据集创建的随机数生成。传递一个 int 以在多次函数调用中获得可重复的输出。 请参阅 术语表 。
- return_centersbool, 默认=False
如果为 True,则返回每个簇的中心。
Added in version 0.23.
- Returns:
- Xndarray of shape (n_samples, n_features)
生成的样本。
- yndarray of shape (n_samples,)
每个样本的簇成员资格的整数标签。
- centersndarray of shape (n_centers, n_features)
每个簇的中心。仅当
return_centers=True
时返回。
See also
make_classification
更复杂的变体。
Examples
>>> from sklearn.datasets import make_blobs >>> X, y = make_blobs(n_samples=10, centers=3, n_features=2, ... random_state=0) >>> print(X.shape) (10, 2) >>> y array([0, 0, 1, 0, 2, 2, 2, 1, 1, 0]) >>> X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2, ... random_state=0) >>> print(X.shape) (10, 2) >>> y array([0, 1, 2, 0, 2, 2, 2, 1, 1, 0])
Gallery examples#
scikit-learn 1.1 版本发布亮点
scikit-learn 0.23 版本发布亮点
3类分类的概率校准
分类器的概率校准
用于分类的普通、Ledoit-Wolf 和 OAS 线性判别分析
用于分类的普通、Ledoit-Wolf 和 OAS 线性判别分析
DBSCAN聚类算法演示
HDBSCAN聚类算法演示
K-Means 和 MiniBatchKMeans 聚类算法的比较
K-Means 和 MiniBatchKMeans 聚类算法的比较
K-Means++ 初始化示例
k-means 假设的演示
二分 K-Means 和常规 K-Means 性能比较
亲和传播聚类算法示例
使用轮廓分析选择KMeans聚类的簇数
在玩具数据集上比较不同的聚类算法
均值漂移聚类算法示例
对比不同层次聚类方法在玩具数据集上的表现
归纳聚类
比较 BIRCH 和 MiniBatchKMeans
绘制随机生成的分类数据集
GMM 初始化方法
SGD:最大间隔分离超平面
绘制多项式和一对其余逻辑回归
比较用于异常检测的算法在玩具数据集上的表现
展示KBinsDiscretizer的不同策略
SVM 平局打破示例
SVM:最大间隔分离超平面
SVM:用于不平衡类别的分离超平面
在 LinearSVC 中绘制支持向量