第九章 聚类

第九章 聚类

9.1

第九章 聚类

9.2(只有理解,无证明)

Hausdorff距离量度度量空间中真子集之间的距离。所谓度量空间,也就是一个集合,其中任意元素之间的距离可定义;真子集就简单理解成一组有限(可以是无限)数目的元素(点)集合。因此,Hausdorff距离可以理解成一个点集中的点到另一个点集的最短距离的最大值。
第九章 聚类
通俗来讲,计算所有xz2||x-z||_2,其中x∈X,z∈Z;然后找出每个z对应的最小的xz2||x-z||_2,令其组成集合b;最后再从b中找到最大的xz2||x-z||_2
形象点说disth(X,Z)dist_h(X,Z)是对X内所有点做圆并慢慢扩大,遇到的第一个属于Z的点时的半径,就是当前点的minz∈Zxz2||x-z||_2,而所有半径中最大的一个,就是disth(X,Z)dist_h(X,Z)

9.3

不能,因为这是一个NP难问题,因此k均值算法采用了贪心策略,因此 k 均值容易陷入局部最优,即只能找到初始化均值附近的局部最优解,无法找到全局最优解,所以在使用 k 均值时常常多次随机初始化中心点,然后挑选结果最好的一个。
具体算法中,先随机挑选初始均值向量,然后根据挑选的进行蔟的划分以及更新,此后的过程中一直受到第一次随机挑选初始均值向量的影响,因此可能这也是它易陷入局部最优的原因!

9.4(待补)

9.5

法一:理解证明
密度相连证明:
密度相连的定义是对于xix_ixjx_j,若存在xkx_kxix_ixjx_j都可密度可达,那么xix_ixjx_j密度相连。
然后我们再看题目说x为核心对象,X是由与x密度可达的所有样本构成的集合,那么X中任意的元素至少都可由x到达,即证
最大性证明:
最大性:xix_i∈C,xjx_jxix_i密度可达,推出xjx_j属于C;
将上面的xix_i替换成题中x,xjx_j是X中除了x的其他元素,那么由x密度可达的所有组成X满足,即证!
法二:课本
第九章 聚类

9.6

合并时候选择最近的聚类簇进行合并,而判断距离远近的话有三种距离:最小距离、最远距离、平均距离;
最小距离:个人感觉以最小距离为判断准则是判断所有两两聚类簇的最小相似程度,就是说哪两个聚类簇之间的最小相似程度最相似,那么就合并。因为最小距离是两个簇的最近样本决定,就像两个圆扩张一样,碰到就行,并把此时碰到的距离记下来并为判断依据。
最大距离:个人感觉以最大距离为判断准则是判断所有两两聚类簇的最大相似程度,就是说哪两个聚类簇之间的最大相似程度最相似,那么就合并。因为最大距离是两个簇的最远样本决定,就像两个聚类簇是两个小圆一样,最远距离是找个大圆把这两小圆刚好包起来,并把此时大圆距离记下来并为判断依据。

9.7

这题不太懂,因此参考别人答案如下:
参考1参考2
原型聚类:输出线性分类边界的聚类算法显然都是凸聚类,这样的算法有:K均值,LVQ;而曲线分类边界的也显然是非凸聚类,高斯混合聚类,是通过概率模型来计算每个样本属于每个分类的概率。因此不再单纯与均值相关,而且和方差(协方差)有关,在簇间方差不同时,其决策边界为弧线,不再一定得到凸聚类,所以高混合聚类为非凸聚类;
密度聚类:DBSCAN,非凸聚类;
层次聚类:AGENS,是凸聚类。

9.8

我觉得9.2的性能指标挺好的了。。。

9.9

P201的闵可夫斯基距离和VDM结合处理混合属性。

9.10(待补)