dask_ml.cluster.SpectralClustering
dask_ml.cluster
.SpectralClustering¶
- class dask_ml.cluster.SpectralClustering(n_clusters=8, eigen_solver=None, random_state=None, n_init='auto', gamma=1.0, affinity='rbf', n_neighbors=10, eigen_tol=0.0, assign_labels='kmeans', degree=3, coef0=1, kernel_params=None, n_jobs=1, n_components=100, persist_embedding=False, kmeans_params=None)[源代码]¶
应用并行谱聚类
此实现避免了昂贵的 N x N 亲和矩阵计算。相反,使用 Nyström 方法作为近似。
- 参数
- n_clusters整数,可选
投影子空间的维度。
- eigen_solver无
忽略
- random_stateint, RandomState 实例或 None, 可选, 默认: None
用于在 eigen_solver == ‘amg’ 时初始化 lobpcg 特征向量分解的伪随机数生成器,以及用于 K-Means 初始化的伪随机数生成器。如果为 int,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,随机数生成器是 np.random 使用的 RandomState 实例。
- n_initint, 可选, 默认: 10
忽略
- gammafloat, 默认值=1.0
rbf、poly、sigmoid、laplacian 和 chi2 核的内核系数。对于
affinity='nearest_neighbors'
则忽略。- 亲和性字符串、类数组或可调用对象,默认值为 ‘rbf’
它可能是 ‘预计算’ 或 metrics.pairwise.PAIRWISE_KERNEL_FUNCTIONS 支持的核函数之一。
只应使用产生相似度分数(非负值,相似度增加时值也增加)的内核。聚类算法不会检查此属性。
可调用对象应期望类似于 sklearn.metrics.pairwise_kernels 的参数:必需的
X
,可选的Y
,以及gamma
、degree
、coef0
和在kernel_params
中传递的任何关键字参数。- n_neighbors整数
在使用最近邻方法构建亲和矩阵时使用的邻居数量。对于
affinity='rbf'
被忽略。- eigen_tolfloat, 可选, 默认值: 0.0
在使用 arpack eigen_solver 进行拉普拉斯矩阵的特征分解时的停止准则。
- 分配标签‘kmeans’ 或 Estimator, 默认: ‘kmeans’
在嵌入空间中分配标签的策略。默认情况下创建一个
dask_ml.cluster.KMeans
实例,并将 n_clusters 设置为 2。如需进一步控制最终标签分配的超参数,请传递一个KMeans
估计器实例(可以是 scikit-learn 或 dask-ml)。- 度float, 默认值=3
多项式核的度数。其他核忽略此项。
- coef0float, 默认值=1
多项式核和Sigmoid核的零系数。其他核忽略此项。
- kernel_params字符串到任意类型的字典,可选
内核的参数(关键字参数)和值作为可调用对象传递。其他内核忽略此项。
- n_jobsint, 可选 (默认 = 1)
要运行的并行作业数。如果为
-1
,则作业数设置为 CPU 核心数。- n_componentsint, 默认 100
用于 Nyström 近似的
X
中的行数。较大的n_components
将提高近似的准确性,但会以更长的训练时间为代价。- persist_embedding布尔
是否保留用于聚类的中间 n_samples x n_components 数组。
- kmeans_params字符串到任意类型的字典,可选
用于最终聚类的 KMeans 聚类的关键字参数。
- 属性
- assign_labels_估计器
用于分配标签的 KMeans 估计器实例
- 标签_dask.array.Array, 大小 (n_samples,)
分配的集群标签
- 特征值_numpy.ndarray
采样点的SVD特征值
注释
使用
persist_embedding=True
可以是一个重要的优化,以避免一些冗余计算。这将使输入到聚类算法的数组在(分布式)内存中持久化。数组的形状为n_samples x n_components
。参考文献
分布式系统中的并行谱聚类,2010年,陈松,白,林,和常,IEEE模式分析与机器智能汇刊,http://ieeexplore.ieee.org/document/5444877/
使用Nystrom方法的光谱分组(2004年)Fowlkes, Belongie, Chung, Malik IEEE模式分析与机器智能汇刊 https://people.cs.umass.edu/~mahadeva/cs791bb/reading/fowlkes-nystrom.pdf
方法
fit_predict
(X[, y])对 X 进行聚类并返回聚类标签。
get_metadata_routing
()获取此对象的元数据路由。
get_params
([deep])获取此估计器的参数。
set_params
(**params)设置此估计器的参数。
拟合