原型聚类算法综述(原型聚类算法开篇)
原型聚类算法综述
第十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为该类算法族的开篇,主要介绍了基于原型聚类的最终模型和优化目标。
基于原型的聚类最终产生的模型包含以下两部分:
(1) 聚类簇
(2) 聚类中心
最终得到的聚类模型,应尽量使得在同一个簇中的每个样本点与该簇的聚类中心有较高的“相似度”,因此,根据簇有效性指标的不同,原型聚类的聚类目标可以表示为不同的优化函数,以下根据几种重要的有效性指标,对迭代公式进行具体推导:
以SSE(误差平方和)作为有效性指标
SSE有效性指标可以表示为:
优化目标为:
由于含有两组目标变量,需要对其进行交替优化:
a) 当确定时
将式(1)对求偏导并置零,得到
由上式可知,这一步的优化需要将原聚类中心根据新得到的簇,替换为新的聚类中心;
b) 当确定时
为了减小总SSE,应该使得每个样本重新分配到与其距离最近的聚类中心所代表的的簇中。
以SAE(绝对误差和)作为有效性指标
SAE有效性指标可以表示为:
优化目标为:
由于含有两组目标变量,需要对其进行交替优化:
a) 当确定时
将式(1)对求偏导并置零,得到
由上式可知,这一步的优化需要将原聚类中心根据新得到的簇,替换为新的聚类中位数;
b) 当确定时
为了减小总SSE,应该使得每个样本重新分配到与其距离最近的聚类中心所代表的的簇中。
未完待续……
以下是各原型聚类算法的链接
【1】K-Means《K-Means详解》
【2】Learning Vector Quantization《Learning Vector Quantization详解》
【3】Fuzzy Clustering《Fuzzy Clustering详解》
【4】Mixture-of-Gaussian Clustering《Mixture-of-Gaussian Clustering详解》
【5】未完待续……