机器学习笔记-聚类2

Mini-batch k-Means:在原始k-Means中只取部分样本做均值或对于目标函数中只取部分样本做梯度下降。
机器学习笔记-聚类2
机器学习笔记-聚类2
层次聚类:
凝聚的层次聚类-AGNES算法:一种自底向上的策略,首先将每个对象作为一个簇,然后根据某些准则合并这些子簇为越来越大的簇,两个簇间的距离由这两个不同簇中距离最近的数据点的相似度来确定,合并过程反复进行直到所有的对象最终满足簇数目。
分类的层次聚类-DIANA算法:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后根据某些准则,将该簇分为越来越小的簇,直到到达用户指定的簇的数目或者两个簇之间的距离超过某个阈值。
AGNES较于DIANA更常用,AGNES中簇间距离的不同定义:
最小距离:两个集合中最近的两个样本的距离,使用该准则容易形成链状结构
最大距离:两个集合中最远的两个样本的距离complete,若存在异常值则不稳定
平均距离:1)两个集合中样本间两两距离的平均值average
2)两个集合中样本间两两距离的平方和平均值ward

密度聚类:
只要样本点的密度大于某阈值,则将该样本添加到最近的簇中
DBSCAN:将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的聚类。
直接密度可达->密度可达->密度相连。
DBSCAN算法流程:
如果一个点p的ε领域包含多于m个对象,则创建一个p作为核心对象的新簇
寻找并合并核心对象直接密度可达的对象
没有新点可以更新簇时,算法结束
由上述算法可知:每个簇至少包含一个核心对象;非核心对象可以是簇的一部分,构成了簇的边缘;包含过小对象的簇被认为是噪声。

机器学习笔记-聚类2
机器学习笔记-聚类2
机器学习笔记-聚类2