聚类之高斯混合聚类的直觉

什么是高斯混合聚类呢？

我们要搞明白一个未知的懂事是什么，首先，我们先要明确它能干什么。

明显，高斯混合聚类，其效果是聚类。

其与K均值、LVQ用原型向量来刻画聚类结构不同，高斯混合聚类采用概率模型来表达聚类原型。

ok，我知道可能有人不明白这句话在说什么，所以我翻译一下：

K-means，和LVQ都是在开始随机的取某几个点作为聚类中心的，然后随着算法的进行聚类中心随之移动。此时，我们所利用的这个聚类中心本身是一个样本点，便是我们上面所说的原型向量了。

（以下粉色字体可以在算法直觉看完后再看比较好。）

高斯混合聚类说的，用的是概率模型来判断一个样本属于那个簇，有点像是分类的意思了。

这个概率模型有多个，如果我假设样本集中的样本满足5个多元高斯分布的假设，那么我就定义有五个高斯模型，这个模型在算法确定好参数后使用，如何使用呢，对每个样本计算每个高斯模型的结果（后验概率），然后挑最大的一个（最大后验概率），后验概率最大的那个模型对应的簇就是该样本被分的簇了。

so，这就是为什么说高斯混合聚类采用概率模型来表达的意思。

继续。

关于知道该聚类算法的直觉，仅是让我们更好的在高一层的视角理解算法的过程，那么如下：

1. 我们知道高斯模型，（用实数表示的时候是正态分布，用矩阵形式表示的时候，长的就是高斯模型的样子了。）

2. 高斯混合聚类模型的样子，是多个高斯模型的加权求和，其中，权值和为1.

训练：

1. 我们有一堆的数据，我们假设该数据由多元高斯分布产生，

2. 根据假设，确定多元高斯模型，并赋予其初始参数。

3. 利用em算法，迭代得到最终的模型参数。（E步：利用参数计算各个样本在各个高斯模型中的后验概率；M步：利用E步计算得到的所有后验概率计算模型的参数。反复计算E步和M步，最终参数会趋于稳定，或者达到指定的迭代数量，算法停止，接下去就是利用模型）

4.模型的参数确定，则模型就确定了，在确定了模型之后，就可以利用该模型来对样本进行区分。

5.利用模型遍历所有样本，为每个样本划分簇，即聚类成功。

聚类之高斯混合聚类的直觉

ok，

聚类 之 高斯混合聚类的 直觉