聚类
内容
聚类¶
|
可扩展的 KMeans 用于聚类 |
|
应用并行谱聚类 |
The dask_ml.cluster
模块实现了几种用于聚类无标签数据的算法。
谱聚类¶
谱聚类在样本间的亲和矩阵上找到一个低维嵌入。然后对嵌入的数据集进行聚类,通常使用KMeans。
通常,谱聚类算法在扩展性方面表现不佳。当样本数量较大时,计算
在 dask-ml
中,我们使用 Nyström 方法来近似大型亲和矩阵。这涉及从整个训练集中采样 n_components
行。对于这个子集(
设
其中
参见 谱聚类基准测试 ,以了解如何展示 dask_ml.cluster.SpectralClustering
在样本数量上的扩展性。