dask_ml.datasets.make_blobs
dask_ml.datasets.make_blobs¶
- dask_ml.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(- 10.0, 10.0), shuffle=True, random_state=None, chunks=None)[源代码]¶
生成用于聚类的各向同性高斯斑点。
这可以用来在机器集群上生成非常大的 Dask 数组。在使用分布式模式的 Dask 时,客户端机器只需要分配一个块的数据。
- 参数
- n_samplesint 或类数组, 可选 (默认=100)
如果是整数,它是均匀分配到各个簇的总点数。如果是类数组,序列中的每个元素表示每个簇的样本数。
- n_featuresint, 可选 (默认值=2)
每个样本的特征数量。
- 中心int 或形状为 [n_centers, n_features] 的数组,可选
(default=None) 要生成的中心数量,或固定的中心位置。如果 n_samples 是整数且 centers 为 None,则生成 3 个中心。如果 n_samples 是类数组对象,centers 必须是 None 或长度等于 n_samples 长度的数组。
- cluster_std浮点数或浮点数序列,可选(默认=1.0)
簇的标准差。
- center_box一对浮点数 (最小值, 最大值), 可选 (默认=(-10.0, 10.0))
当中心点随机生成时,每个聚类中心的边界框。
- 洗牌布尔值,可选(默认=True)
打乱样本。
- random_stateint, RandomState 实例或 None (默认)
确定数据集创建的随机数生成。传递一个整数以在多次函数调用中获得可重现的输出。参见 术语表。
- 块int, 元组
如何对数组进行分块。必须是以下形式之一:- 一个块大小,如1000。- 一个块形状,如(1000, 1000)。- 所有维度上所有块的显式大小,如
((1000, 1000, 500), (400, 400)).
- 返回
- X形状为 [n_samples, n_features] 的数组
生成的样本。
- y形状为 [n_samples] 的数组
每个样本的集群成员资格的整数标签。
参见
make_classification
更复杂的变体
示例
>>> from dask_ml.datasets import make_blobs >>> X, y = make_blobs(n_samples=100000, chunks=10000) >>> X dask.array<..., shape=(100000, 2), dtype=float64, chunksize=(10000, 2)> >>> y dask.array<concatenate, shape=(100000,), dtype=int64, chunksize=(10000,)>