【聚类模型②】系统聚类算法——解决k均值聚类的遗留问题

上一篇博客我们提到，k均值聚类虽然可以对多个样本进行k分类，但即使是改进以后的k-means++聚类方法也存在一个问题：聚类结果很大程度上依赖于用户给定的类数k。

那么有没有方法解决这个问题呢？在清风老师的教程中介绍了系统聚类算法↓（本文图片来自辽宁石油化工大学的于晶贤老师）

文章目录

系统聚类的步骤

整体描述
聚类谱系图
计算类间距离的5个方法

系统聚类做出的改进

系统聚类的步骤

整体描述

将每个样本算作一类
用特定方法计算类与类两两间距离，将距离较近的类分为一大类
将新的大类作为子类，重复第2步并绘制聚类谱系图，直到所有样本都归为一类为止
根据得到的聚类谱系图和选取的类数量k，得到k分类结果

聚类谱系图

根据每一次分类结果，绘制出类似下图的树状谱系图：

以改图为例，分类过程如下：
第一次分类将学生1和5分为一类，2和4分为一类，3自成一类。第二次将学生1524分为一类，3自成一类。最后一次将所有学生归为一类（学生类，所有样本的全集）
【聚类模型②】系统聚类算法——解决k均值聚类的遗留问题
最后在上图中根据不同的k来选取分类：

可以看出，取k=2时的二分类方法是将学生3分成一类，1、2、4、5分成一类。