聚类 Cluster

聚类算法评价指标
聚类性能度量可以分为两类：

一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”(external index)
一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”(internal index)

对于
外部指标
对数据集 $D = {x_{1}, x_{2}, . . ., x_{m}}$ ，假定通过聚类算法将样本局为 $C = {C_{1}, C_{2}, . . . C_{k}}$ ，将参考模型给出的簇划分为 $C_{*} = {C_{1}^{*}, C_{2}^{*}, . . ., C_{S}^{*}}$ 。

相应的，另 $λ$ 与 $λ^{*}$ 分别表示与 $C$ 和 $C^{*}$ 对应的簇标记向量。将样本两两配对考虑，有如下定义：

a = | S_{1} |, S_{1} = {(x_{i}, x_{j}) | λ_{i} = λ_{j}, λ_{i}^{*} = λ_{j}^{*}, i < j}

b = | S_{2} |, S_{2} = {(x_{i}, x_{j}) | λ_{i} = λ_{j}, λ_{i}^{*} \neq λ_{j}^{*}, i < j}

c = | S_{3} |, S_{3} = {(x_{i}, x_{j}) | λ_{i} \neq λ_{j}, λ_{i}^{*} = λ_{j}^{*}, i < j}

d = | S_{4} |, S_{4} = {(x_{i}, x_{j}) | λ_{i} \neq λ_{j}, λ_{i}^{*} \neq λ_{j}^{*}, i < j}

其中：
集合

S_{1}

表示包含了在

C

中属于相同的簇并且在

C^{*}

中也属于相同的簇的样本；
集合

S_{2}

表示包含了在

C

中属于相同的簇但在

C^{*}

中不属于相同的簇的样本；
……以此类推……

对每个样本对 $(x_{i}, x_{j}) (i < j)$ 仅能出现在一个集合中，因此有

a + b + c + d = C_{m}^{2} = \frac{m (m - 1)}{2}

基于以上定义，对无监督聚类算法的聚类结果有如下性能度量指标：

Jaccard系数(accard Coefficient，JCI) $J C I = \frac{a}{a + b + c}$ 所有属于同一类的样本对，同时在 $C$ , $C^{*}$ 中隶属于同一类的样本对的比例。
FM指数(Fowlkes and Mallows Index，FMI) $F M I = \sqrt{\frac{a}{a + b} \cdot \frac{a}{a + c}}$ 在 $C$ 中属于同一类的样本对中，同时属于 $C$ 和 $C^{*}$ 的样本对的比例为 $p_{1}$ ；在 $C^{*}$ 中属于同一类的样本对中，同时属于 $C$ 和 $C^{*}$ 的样本对的比例为 $p_{2}$ ，FMI就是 $p_{1}$ 和 $p_{2}$ 的几何平均。
Rand指数(Rand Index，RI) $R I = \frac{2 (a + d)}{m (m - 1)}$ 很显然，上述性能度量指标的取值都在 $[0, 1]$ 之间，并且取值越大越好。
-

内部指标
对于聚类结果 $C = {C_{1}, C_{2}, . . ., C_{k}}$ ，作如下定义：

a v g (C) = \frac{2}{| C | (| C | - 1)} \sum_{1 ⩽ i ⩽ j ⩽ | C |} d i s t (x_{i}, x_{j})

d i a m (C) = max_{1 ⩽ i ⩽ j ⩽ | C |} d i s t (x_{i}, x_{j})

d_{m i n} (C_{i}, C_{j}) = min_{x_{i} \in C_{i}, x_{j} \in C_{j}} d i s t (x_{i}, x_{j})

d_{c e n} (C_{i}, C_{j}) = d i s t (μ_{i}, μ_{j})

其中

a v g (C)

表示质心，

| C |

表示簇内样本的个数，即

| C | = k

；

d i a m (C)

表示簇

C

内样本之间的最大距离；

d_{m i n} (C_{i}, C_{j})

表示簇

C_{i}

与簇

C_{j}

之间的最小距离；

d i s t (x_{i}, x_{j})

用于计算两个样本之间的距离；

μ

代表簇

C

的样本中心。

基于上述定义，得到如下考量聚类性能的内部指标：

DB指数( Davies-Bouldin Index，DBI) $D B I = \frac{1}{k} max_{j \neq i} (\frac{a v g (C_{i}) + a v g (C_{j})}{d_{c e n} (μ_{i}, μ_{j})})$ DBI的值越小越好
Dunn指数(Dunn Index，DI) $D I = min_{1 ⩽ i ⩽ k} {min_{j \neq i} (\frac{d_{m i n} (C_{i}, C_{j})}{max_{1 ⩽ l ⩽ k} d i a m (C_{l})})}$ DI的值越大越好

距离度量
聚类算法的一个重要的度量目标是表示两个样本点之间的相似程度：距离越近，相似程度越高；距离越远，相似程度越低。

常用的距离度量方式：

闵可夫斯基距离；
欧氏距离；
曼哈顿距离；
切比雪夫距离；
余弦距离

其中最重要的是闵可夫斯基距离，闵可夫斯基距离是一类距离的定义。

对于 $n$ 维空间中的两个点 $x (x_{1}, x_{2}, . . ., x_{n})$ 和 $y (y_{1}, y_{2}, . . ., y_{n})$ ， $x$ 、 $y$ 两点之间的闵可夫斯基距离表示为：

d_{x y} = \sqrt[p]{\sum_{k = 1}^{n} (x_{k} - y_{k})^{p}}

其中

p

是一个可变参数。

当 $p = 1$ 时，称为 曼哈顿距离 $d_{x y} = \sum_{k = 1}^{n} | x_{k} - y_{k} |$
当 $p = 2$ 时，称为 欧式距离 $d_{x y} = \sqrt{\sum_{k = 1}^{n} (x_{k} - y_{k})^{2}}$
当 $p = \infty$ 时，称为 切比雪夫距离

K-Means算法
对给定的样本集 $D = {x_{1}, x_{2}, . . ., x_{m}}$ ，k均值算法根据聚类结果划分 $C = {C_{1}, C_{2}, . . ., C_{k}}$
最小化平方误差：

M S E = \sum_{i = 1}^{k} \sum_{x \in C_{i}} | | x - u_{i} | |_{2}^{2}

其中

u_{i} = \frac{1}{| C_{i} |} \sum_{x \in C_{i}} x

是类

C_{i}

的均值向量。

MSE刻画了簇类样本围绕簇均值向量的紧密程度，越小代表样本距簇均值中心越靠近。

但最优化上式的值是一个NP难的问题，因为要精确地找到它的最优解需要对样本集 $D$ 的所有划分情况进行一一列举。

因此，K-Means算法最终采用的是贪心的策略，通过迭代优化的方式来近似求解最优MES值。

算法流程如下：
有样本集 $D = {x_{1}, x_{2}, . . ., x_{m}}$ ，最终聚类的类别数 $k$ ，最大迭代轮数 $n$ ，前后两次迭代计算出的类标中心的距离 $ϵ$

1、随机选择 $k$ 个样本点作为类标中心

2、计算每个样本点到所有类标中心点的距离；

3、将所有样本点划分到距离最近的类标中心所在的类标；

4、重新计算每个类的类标中心；

5、重复步骤2-4，直到两次迭代计算出的类标中心不发生变化或发生的变化小于 $ϵ$ 或者达到指定的最大迭代次数 $n$ 。
聚类 Cluster

密度聚类算法之 DBSCAN
基于密度的聚类(Density_Based Clustering)方法主要考虑的是样本分布的紧密程度，这里的紧密程度主要是用样本间的距离来衡量的。

通常情况下，密度聚类算法从样本密度的角度来考察样本之间的可连续性，并基于可连续性样本不断地扩展簇以获得最终的聚类结果。

DBSCAN是一种著名的密度聚类算法，它基于一组”领域”参数( $ϵ, m p s$ )来刻画样本分布的紧密程度。

对给定样本集 $D = {x_{1}, x_{2}, . . ., x_{m}}$ 进行如下定义：

$ϵ$ 领域
对于样本集 $D$ 中的样本点 $x_{i}$ ，它的 $ϵ$ 领域定义为与 $x_{i}$ 距离不大于 $ϵ$ 的样本的集合，即 $N_{ϵ} (x_{i}) = {x \in D | d i s t (x, x_{i}) ⩽ ϵ}$
核心对象
如果样本 $x$ 的 $ϵ$ 领域内至少包含 $m p s$ 个样本，即 $| N_{ϵ} (x_{i}) | ⩾ m p s$ 则称 $x$ 为核心对象
密度直达
如果 $x_{i}$ 是一个核心对象，并且 $x_{j}$ 位于它的 $ϵ$ 领域内
,那么我们称 $x_{j}$ 与 $x_{i}$ 密度直达
密度可达
对于任意两个不同的样本点 $x_{i}$ 与 $x_{j}$ ，如果存在样本序列 $p_{1}, p_{2}, . . . p_{n}$ ，其中 $p_{1} = x_{i} 、 p_{n} = x_{j}$ ，且 $p_{i + 1}$ 由 $p_{i} ， i = 1, 2, . . ., n - 1$ 密度直达，则称 $x_{i}$ 与 $x_{j}$ 密度可达。
密度相连
对于任意的两个不同样本点 $x_{i}$ 与 $x_{j}$ ，如果存在第三个样本点 $x_{k}$ 使得 $x_{i}$ 与 $x_{j}$ 均由 $x_{k}$ 密度可达，则称 $x_{i}$ 与 $x_{j}$ 密度相连。

其中：
红点表示核心对象；黑色圆圈表示核心对象的 $ϵ$ 领域；绿色箭头表示密度直达；绿色箭头的连线表示密度相连；绿色连线上任意两点都是密度可达。