周志华 机器学习 Day15

聚类

聚类任务

在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。次来学习任务中研究最多、应用最广的是“聚类”。

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。

性能度量

聚类性能度量亦称聚类“有效性指标”,与监督学习性能度量作用相似,对聚类结果,我们需通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

聚类性能度量大致有两类:(1)将聚类结果与某个“参考模型”进行比较,称为“外部指标”;(2)直接考察聚类结果而不利用任何参考模型,称为“内部指标”。

距离计算

对函数dist(·,·),若它是一个“距离度量”,则需要满足一些基本性质:非负性、同一性、对称性、直递性。

给定样本xi=(xi1;xi2;.....;xin)与xj=(xj1;xj2;.....;xjn),最常用的是“闵可夫斯基距离”

周志华 机器学习 Day15

对p≥1,上式满足距离度量基本性质。

对p=2时,闵可夫斯基距离即欧式距离

周志华 机器学习 Day15

对p=1时,闵可夫斯基距离即曼哈顿距离

周志华 机器学习 Day15

原型聚类

原型聚类亦称“基于原型的聚类”,此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。下面介绍几种著名的原型聚类算法。

1、k均值算法

周志华 机器学习 Day15

2、学习向量量化

学习向量量化(简称LVQ)试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。

周志华 机器学习 Day15

每一轮迭代中,算法随机选取一个有标记训练样本,找出与其距离最近的原型向量,并根据两者的类别标记是否一致来对原型向量进行相应的更新。在第12行中,若算法的停止条件满足(例如已达到最大迭代轮数,或原型向量更新很小甚至不再更新),则将当前原型向量作为最终结果返回。