2.1. 高斯混合模型#

../_images/sphx_glr_plot_gmm_pdf_001.png — **两个分量的高斯混合模型：** *数据点，以及模型的等概率表面。*#

高斯混合模型是一个概率模型，假设所有数据点都是从有限数量的高斯分布混合生成的，这些高斯分布的参数是未知的。可以认为混合模型是将对数据的协方差结构以及潜在高斯中心的考虑纳入其中的 k-means 聚类的推广。

Scikit-learn 实现了不同的类来估计高斯混合模型，这些类对应于不同的估计策略，详情如下。

2.1.1. 高斯混合#

GaussianMixture 对象实现了用于拟合混合高斯模型的期望最大化（EM）算法。它还可以为多变量模型绘制置信椭球，并计算贝叶斯信息准则来评估数据中的聚类数量。提供了一个 GaussianMixture.fit 方法，用于从训练数据中学习高斯混合模型。给定测试数据，可以使用 GaussianMixture.predict 方法将每个样本分配给最可能属于的高斯分布。

GaussianMixture 提供了不同的选项来约束估计的差异类别的协方差：球形的、对角的、绑定的或完全的协方差。

../_images/sphx_glr_plot_gmm_covariances_001.png

示例

参见 GMM 协方差以了解在鸢尾花数据集上使用高斯混合进行聚类的示例。
参见高斯混合模型的密度估计以了解绘制密度估计的示例。

避免指定高斯混合模型中组件的数量。

../_images/sphx_glr_plot_gmm_selection_002.png

示例

参见高斯混合模型选择以了解使用经典高斯混合进行模型选择的示例。

从数据中加权分布选择，偏向于远离现有中心的点。k-means++ 是 k-means 的默认初始化方法，因此比运行完整的 k-means 更快，但对于具有许多组件的大型数据集，仍然可能需要相当长的时间。

random_from_data
这将从未输入数据中随机选择数据点作为初始中心。这是一种非常快速的初始化方法，但如果选择的点彼此过于接近，可能会产生不收敛的结果。

random
中心点选择为所有数据均值附近的小扰动。这种方法简单，但可能导致模型收敛时间更长。

示例

参见 GMM 初始化方法以了解在高斯混合模型中使用不同初始化的示例。

2.1.2. 变分贝叶斯高斯混合#

BayesianGaussianMixture 对象实现了使用变分推理算法的高斯混合模型变体。其 API 与 GaussianMixture 定义的 API 类似。

估计算法：变分推理

变分推理是期望最大化的一种扩展，它最大化模型证据（包括先验）的下界，而不是数据似然。变分方法背后的原理与期望最大化相同（即两者都是迭代算法，交替寻找每个点由每个混合成分生成的概率，并拟合混合成分到这些分配的点），但变分方法通过整合先验分布的信息来增加正则化。这避免了在

期望最大化中经常出现的奇异性。期望最大化解决方案，但引入了一些细微的偏差到模型中。推理通常显著较慢，但通常不会慢到使使用变得不切实际。

由于其贝叶斯性质，变分算法需要的超参数比期望最大化更多，其中最重要的是浓度参数 weight_concentration_prior 。为浓度先验指定一个较低的值将使模型将大部分权重放在少数几个组件上，并将剩余组件的权重设置得非常接近零。浓度先验的高值将允许更多的组件在混合中活跃。

BayesianGaussianMixture 类的参数实现提出了两种类型的权重分布先验：具有狄利克雷分布的有限混合模型和具有狄利克雷过程的无限混合模型。实际上，狄利克雷过程推理算法是近似的，并使用具有固定最大组件数量的截断分布（称为棍子折断表示）。实际使用的组件数量几乎总是取决于数据。

下图比较了不同类型的权重浓度先验（参数 weight_concentration_prior_type ）在不同 weight_concentration_prior 值下获得的结果。在这里，我们可以看到 weight_concentration_prior 参数的值对获得的活动组件的有效数量有强烈影响。我们还可以注意到，当先验类型为 ‘dirichlet_distribution’ 时，浓度权重先验的大值会导致更均匀的权重，而对于 ‘dirichlet_process’ 类型（默认使用）则不一定如此。

下面的示例比较了具有固定组件数量的高斯混合模型与具有Dirichlet过程先验的变分高斯混合模型。在这里，一个经典的高斯混合模型在由2个集群组成的数据集上拟合了5个组件。我们可以看到，具有Dirichlet过程先验的变分高斯混合模型能够限制自己仅使用2个组件，而高斯混合模型则使用用户事先设定的固定数量的组件来拟合数据。在这种情况下，用户选择了 n_components=5 ，这与这个玩具数据集的真实生成分布不匹配。请注意，在观测数据非常少的情况下，具有Dirichlet过程先验的变分高斯混合模型可能会采取保守立场，仅拟合一个组件。

在下面的图中，我们拟合了一个不适合用高斯混合模型描述的数据集。调整:class:BayesianGaussianMixture 的 weight_concentration_prior 参数可以控制用于拟合这些数据的分量数量。我们还在最后两个图中展示了从两个结果混合中生成的随机样本。

../_images/sphx_glr_plot_gmm_sin_001.png

示例

参见:ref:sphx_glr_auto_examples_mixture_plot_gmm.py ，了解一个关于绘制:class:GaussianMixture 和:class:BayesianGaussianMixture 的置信椭球体的示例。
高斯混合模型正弦曲线展示了使用 GaussianMixture 和 BayesianGaussianMixture 用于拟合正弦波。
参见变分贝叶斯高斯混合模型的浓度先验类型分析示例，该示例绘制了不同 weight_concentration_prior_type 下 BayesianGaussianMixture 的置信椭球，对应不同的 weight_concentration_prior 参数值。

偏差:: 推断算法（如果使用Dirichlet过程，也存在）中存在许多隐含偏差，并且每当这些偏差与数据不匹配时，可能可以使用有限混合来拟合更好的模型。

2.1.2.1. Dirichlet过程#

这里我们描述Dirichlet过程混合的变分推断算法。Dirichlet过程是一种在*具有无限、无界数量的分区的聚类*上的先验概率分布。变分技术使我们几乎可以在不增加推断时间的情况下，将这种先验结构纳入高斯混合模型中，与有限高斯混合模型相比。

一个重要的问题是Dirichlet过程如何使用无限、无界的聚类数量，同时仍然保持一致性。虽然完整的解释不适合本手册，但可以考虑其棍子断裂过程的类比来帮助理解。棍子断裂过程是Dirichlet过程的一个生成故事。我们从一根单位长度的棍子开始，在每一步中，我们折断剩余棍子的一部分。每次，我们将棍子片段的长度与混合中落入一组的点的比例相关联。最后，为了表示无限混合，我们将最后剩余的棍子片段与未落入所有其他组的点的比例相关联。每个片段的长度是一个随机变量，其概率与浓度参数成比例。浓度值越小，将单位长度分成更大的棍子片段（定义更集中的分布）。较大的浓度值将创建更小的棍子片段（增加具有非零权重的组件数量）。

Dirichlet过程的变分推断技术仍然有效使用这个无限混合模型的有限近似，但不是必须事先指定想要使用多少个组件，而是只需指定浓度参数和一个混合组件数量的上限（这个上限，假设它高于“真实”的组件数量，仅影响算法复杂度，而不影响实际使用的组件数量）。