机器学习笔记—模式识别与智能计算(三)模式相似性测度

系列文章:

机器学习笔记—模式识别与智能计算(一)模式识别概述

机器学习笔记—模式识别与智能计算(二)特征的选择与优化

同类文章:

暂无

 

1、模式相似性测度

         模式识别最基本的研究问题样本与样本之间或类与类之间的相似性测度问题,判断样本之间的相似性常用近邻准则,原理上属于模板匹配,即将待分类样本与标准模板进行比较,看跟哪个模板匹配程度更好从而确定待测样本分类。

         按照近邻准则进行分类通常有两种计算方法:a.样本测度—待分类样本与所有训练样本做特征相似性测度,找出最接近的样本并取该样本所属类别作为待测样本的类别;b.类中心测度:与训练样本中不同类别的中心或重心做特征相似性测度,找出最接近的类中心并以该类作为待测样本的类别。

(1)样本与样本之间的距离

         样本与样本之间的距离计算有五种方法,分别是欧式距离法、马氏距离法、夹角余弦距离法、二值夹角余弦距离法和二值Tanimoto测度距离法。

(2)样本与类之间的距离

         样本与类之间的距离计算方法有两种:a.与类内各样本距离的平均—计算样本到某类别w内各样本的距离,将这些距离求和并计算平均值作为样本与类之间的距离;b.与类中心点距离—先计算某类别w的中心点M(w),再计算待测样本到中心点的距离作为样本与类之间的距离,M(w)通过计算类别w内各样本的特征平均值得到。

(3)类内距离

         类内距离是指同一个类内任意样本之间距离的平均值。

(4)类与类之间的距离

         类与类之间的距离计算方法有四种,分别是最短距离法、最长距离法、类中心法、平均距离法。

机器学习笔记—模式识别与智能计算(三)模式相似性测度

2、距离测度分类法

(1)模板匹配法—样本测度之欧氏距离

         采用最小距离法。

         对于两类别,利用欧氏距离来判断,如果待分类样本X到标准模板样本XA的距离比到XB的距离近,则X属于XA,否则属于XB。

         对于多类别,计算待分类样本X与训练样本Xi的欧式距离d(X,Xi),若d(X,Xi)<d(X,Xj)对任意j!=i成立,则待分类样本X所属的类别判别为样本Xi所属的类别。

(2)基于PCA的模板匹配法—样本测度之PCA欧式距离

         在使用模板匹配法之前,先对特征进行主成分分析PCA,即按照贡献度提取特征分量的前m个主分量,用较低维数的特征来进行分类。

(3)基于类中心的欧式距离法—类中心测度之欧式距离

         类别wi的中心为M(wi),待分类样本X到类别wi中心的欧氏距离为d(X,M(wi)),若d(X,M(wi))< d(X,M(wj))对任意j!=i成立,则待分类样本X所属的类别判别为wi。

(4)基于类中心的马氏距离法—类中心测度之马氏距离

         类别wi的中心为M(wi),待分类样本X到类别wi中心的马氏距离为d(X,M(wi)),若d(X,M(wi))< d(X,M(wj))对任意j!=i成立,则待分类样本X所属的类别判别为wi。

(5)夹角余弦距离法—样本测度之夹角余弦距离

         计算待分类样本X与训练样本Xi的夹角余弦距离S(X,Xi),若d(X,Xi)<d(X,Xj)对任意j!=i成立,则待分类样本X所属的类别判别为样本Xi所属的类别

(6)二值化夹角余弦距离法—样本测度之二值化夹角余弦距离

         计算待分类样本X与训练样本Xi的二值化夹角余弦距离S(X,Xi),若d(X,Xi)<d(X,Xj)对任意j!=i成立,则待分类样本X所属的类别判别为样本Xi所属的类别

(7)二值化Tanimoto距离法—样本测度之二值化Tanimoto距离

         计算待分类样本X与训练样本Xi的二值化Tanimoto距离S(X,Xi),若d(X,Xi)<d(X,Xj)对任意j!=i成立,则待分类样本X所属的类别判别为样本Xi所属的类别