聚类算法(二)——层次聚类

2.层次聚类
概念:通过计算不同类别数据点间的相似度来创建一个有层次有嵌套的聚类树

特点:不需要指定具体的簇数,只关注簇的远近,最后形成一个树状图;
距离和规则的相似度容易定义,限制少,可以发现类的层次关系,可以聚类成其他形状
运算量很大,奇异值也能产生很大影响,算法很可能聚类为链状

算法基本过程:每个样点被视为一个簇,计算每个簇之间的距离,最近的两个合为一个新簇,重复这个过程直到最后只有一簇
聚类算法(二)——层次聚类

簇与簇之间的距离计算方法有:最短距离法Single Linkage(距离为簇与簇之间样本的最短距离)、最长距离法Complete Linkage(最远的两个点)、中间距离法、类平均法Average Linkage

eg:类平均法,计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离/计算量大最好用,因为其单调性以及其空间扩张/浓缩的程度

按层次分解的顺序:有自下底而上和自上而下,凝聚与分裂。一个是一个点就是一类,然后顺着linkage寻找同类、最后形成一个类;自上而下就是一开始都属于一个类,然后genjulinkaage排除异己,最后每个个体成为一个类。