聚类 之 高斯混合聚类的 直觉

什么是高斯混合聚类呢?

 

我们要搞明白一个未知的懂事是什么, 首先,我们先要明确 它能干什么。

明显,高斯混合聚类 ,其效果是聚类。


其与K均值、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用概率模型来表达聚类原型。

ok,我知道可能有人不明白这句话在说什么,所以我翻译一下:

K-means,和LVQ都是在开始随机的取某几个点作为聚类中心的,然后随着算法的进行 聚类中心随之移动。此时,我们所利用的这个聚类中心本身是一个样本点, 便是我们上面所说的原型向量了。

 

(以下粉色字体可以 在算法直觉看完后再看 比较好。)

高斯混合聚类说的,用的是概率模型来判断一个样本属于那个簇,有点像是分类的意思了。

这个概率模型有多个,如果我假设 样本集中的样本满足5个多元高斯分布的假设,那么我就定义有五个高斯模型,这个模型在算法确定好参数后使用, 如何使用呢, 对每个样本计算每个高斯模型的结果(后验概率),然后挑最大的一个(最大后验概率),后验概率最大的那个模型对应的簇就是该样本被分的簇了。

so,这就是 为什么说 高斯混合聚类采用概率模型来表达的意思。

 

继续。

 

关于知道该聚类算法的直觉,仅是 让我们更好的 在 高一层的视角 理解算法的过程, 那么 如下:

 

1. 我们知道高斯模型,  (用实数表示的时候是正态分布, 用矩阵形式表示的时候, 长的就是 高斯模型 的样子了。)

2. 高斯混合聚类模型的 样子 , 是 多个高斯模型 的加权求和,其中,权值和为1.

 

训练:

1. 我们有 一堆的数据,  我们假设 该数据由 多元高斯分布 产生, 

2. 根据假设,确定多元高斯模型, 并赋予其初始参数。

3. 利用em算法,迭代得到最终的模型参数。(E步:利用参数计算各个样本在各个高斯模型中的后验概率;M步:利用E步计算得到的所有后验概率 计算 模型的参数。    反复计算E步和M步,最终参数会趋于稳定,或者达到指定的迭代数量,算法停止,接下去就是利用模型)

4.模型的参数确定,则模型就确定了, 在确定了模型之后,就可以利用该模型来对样本进行区分。

5.利用模型 遍历所有样本,为每个样本划分簇,即聚类成功。

 

聚类 之 高斯混合聚类的 直觉

 

 

 

ok,

 

 

 

 

88