5 模式识别-动态聚类算法(K均值算法、迭代自组织的数据分析ISOData算法)
武汉理工大学资源 郭志强
动态聚类算法:先选取初始的中心(每个类别的初始中心),然后把所有的样本进行聚类分析,聚类完成后,就去判断这个聚类结果合不合理(满不满足设计指标要求),如果合理就输出聚类结果(样本分类结果),如果不合理就自动修改相应的参数(一般是聚类结束判断参数),得到新的聚类中心之后再重新进行聚类,直到这组样本点的分类效果合理输出为止。
动态聚类算法的常用方法:
1. K均值算法(先选出准则函数最小的聚类中心,然后将其他样本按照近邻聚类法进 行分类)
准则函数是以聚类中心为自变量的函数。
聚类(将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类)。
其中:Z为聚类中心,S为聚类集,X为某个样本点特征,N为该聚类集中样本点个数。
求函数极值,就是对函数求导,使函数等于零即斜率为零。
所以由上图打钩公式可知,其实要找到使得准则函数J最小的聚类中心,就等同于求所有样本点特征和的平均数,就能得到该聚类中心。
可以在初始样本集里面选则K个聚类中心,这个K是一开始人为的自己设定的。
大体理论运作过程:
所谓动态是指聚类中心在进行不断地调整,直到达到最合理状态,停止调整。
我们只能通过不断尝试改变初始选择条件去测试结果,才可以得到较好的算法效果。
K均值算法-计算实例
2. 迭代自组织的数据分析算法(ISOData算法)