BSAS顺序聚类算法及Matlab代码实现

顺序算法（sequential algorithms）是一种非常简单的聚类算法，大多数都至少将所有特征向量使用一次或几次，最后的结果依赖于向量参与算法的顺序。这种聚类算法一般是不预先知道聚类数量k的，但有可能给出一个聚类数上界q。本文将主要介绍基本顺序算法（Basic Sequential Algorithmic Scheme,BSAS）和其几个变种，并给出代码实现。

首先看BSAS，这个算法方案需要用户定义参数：不相似性阈值θ和允许的最大聚类数q以及聚类顺序。算法的基本思想：由于要考虑每个新向量，根据向量到已有聚类的距离，将它分配到一个已有的聚类中，或者一个新生成的聚类中。

算法实例：

有10个模式样本点：{x₁(0 0), x₂(3 8), x₃(2 2), x₄(1 1), x₅(5 3), x₆(4 8), x₇(6 3), x₈(5 4), x₉(6 4), x₁₀(7 5)}

BSAS顺序聚类算法及Matlab代码实现

第一步：选任意一个模式样本作为第一个聚类中心，如z₁= x₁

第二步：选距离z₁最远的样本作为第二个聚类中心。

经计算，|| x₆- z₁||最大，所以z₂= x₆

第三步：逐个计算各模式样本{x_i, i = 1,2,…,N}与{z₁, z₂}之间的距离，即

D_i1= || x_i- z₁||

D_i2= || x_i– z₂||

并选出其中的最小距离min(D_i1, D_i2)，i = 1,2,…,N

第四步：在所有模式样本的最小值中选出最大距离，若该最大值达到||z₁- z₂||的一定比例以上，则相应的样本点取为第三个聚类中心z₃，即

若max{min(D_i1, D_i2), i = 1,2,…,N} >θ||z₁- z₂||，则z₃= x_i

否则，若找不到适合要求的样本作为新的聚类中心，则找聚类中心的过程结束。

这里，θ可用试探法取一固定分数，如1/2。

在此例中，当i=7时，符合上述条件，故z₃= x₇

第五步：若有z₃存在，则计算max{min(D_i1, D_i2, D_i3), i = 1,2,…,N}。若该值超过||z₁- z₂||的一定比例，则存在z₄，否则找聚类中心的过程结束。

在此例中，无z₄满足条件。

第六步：将模式样本{x_i, i = 1,2,…,N}按最近距离分到最近的聚类中心：

z₁= x₁：{x₁, x₃, x₄}为第一类

z₂= x₆：{x₂, x₆}为第二类

z₃= x₇：{x₅, x₇, x₈, x₉, x₁₀}为第三类

最后，还可在每一类中计算个样本的均值，得到更具代表性的聚类中心。

该算法matlab实现的代码下载链接，注释很全～～下载链接

BSAS顺序聚类算法及Matlab代码实现

相关推荐