dask_ml.cluster.SpectralClustering

dask_ml.cluster.SpectralClustering

class dask_ml.cluster.SpectralClustering(n_clusters=8, eigen_solver=None, random_state=None, n_init='auto', gamma=1.0, affinity='rbf', n_neighbors=10, eigen_tol=0.0, assign_labels='kmeans', degree=3, coef0=1, kernel_params=None, n_jobs=1, n_components=100, persist_embedding=False, kmeans_params=None)[源代码]

应用并行谱聚类

此实现避免了昂贵的 N x N 亲和矩阵计算。相反,使用 Nyström 方法作为近似。

参数
n_clusters整数,可选

投影子空间的维度。

eigen_solver

忽略

random_stateint, RandomState 实例或 None, 可选, 默认: None

用于在 eigen_solver == ‘amg’ 时初始化 lobpcg 特征向量分解的伪随机数生成器,以及用于 K-Means 初始化的伪随机数生成器。如果为 int,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,随机数生成器是 np.random 使用的 RandomState 实例。

n_initint, 可选, 默认: 10

忽略

gammafloat, 默认值=1.0

rbf、poly、sigmoid、laplacian 和 chi2 核的内核系数。对于 affinity='nearest_neighbors' 则忽略。

亲和性字符串、类数组或可调用对象,默认值为 ‘rbf’

它可能是 ‘预计算’ 或 metrics.pairwise.PAIRWISE_KERNEL_FUNCTIONS 支持的核函数之一。

只应使用产生相似度分数(非负值,相似度增加时值也增加)的内核。聚类算法不会检查此属性。

可调用对象应期望类似于 sklearn.metrics.pairwise_kernels 的参数:必需的 X,可选的 Y,以及 gammadegreecoef0 和在 kernel_params 中传递的任何关键字参数。

n_neighbors整数

在使用最近邻方法构建亲和矩阵时使用的邻居数量。对于 affinity='rbf' 被忽略。

eigen_tolfloat, 可选, 默认值: 0.0

在使用 arpack eigen_solver 进行拉普拉斯矩阵的特征分解时的停止准则。

分配标签‘kmeans’ 或 Estimator, 默认: ‘kmeans’

在嵌入空间中分配标签的策略。默认情况下创建一个 dask_ml.cluster.KMeans 实例,并将 n_clusters 设置为 2。如需进一步控制最终标签分配的超参数,请传递一个 KMeans 估计器实例(可以是 scikit-learn 或 dask-ml)。

float, 默认值=3

多项式核的度数。其他核忽略此项。

coef0float, 默认值=1

多项式核和Sigmoid核的零系数。其他核忽略此项。

kernel_params字符串到任意类型的字典,可选

内核的参数(关键字参数)和值作为可调用对象传递。其他内核忽略此项。

n_jobsint, 可选 (默认 = 1)

要运行的并行作业数。如果为 -1,则作业数设置为 CPU 核心数。

n_componentsint, 默认 100

用于 Nyström 近似的 X 中的行数。较大的 n_components 将提高近似的准确性,但会以更长的训练时间为代价。

persist_embedding布尔

是否保留用于聚类的中间 n_samples x n_components 数组。

kmeans_params字符串到任意类型的字典,可选

用于最终聚类的 KMeans 聚类的关键字参数。

属性
assign_labels_估计器

用于分配标签的 KMeans 估计器实例

标签_dask.array.Array, 大小 (n_samples,)

分配的集群标签

特征值_numpy.ndarray

采样点的SVD特征值

注释

使用 persist_embedding=True 可以是一个重要的优化,以避免一些冗余计算。这将使输入到聚类算法的数组在(分布式)内存中持久化。数组的形状为 n_samples x n_components

参考文献

方法

fit_predict(X[, y])

X 进行聚类并返回聚类标签。

get_metadata_routing()

获取此对象的元数据路由。

get_params([deep])

获取此估计器的参数。

set_params(**params)

设置此估计器的参数。

拟合

__init__(n_clusters=8, eigen_solver=None, random_state=None, n_init='auto', gamma=1.0, affinity='rbf', n_neighbors=10, eigen_tol=0.0, assign_labels='kmeans', degree=3, coef0=1, kernel_params=None, n_jobs=1, n_components=100, persist_embedding=False, kmeans_params=None)[源代码]