人工智能之模式识别(一)

中国大学mooc上北理工的人工智能之模式识别课程,图片及知识点出自此课程
模式识别是人工智能中的一个重要领域

1.定义

模式识别:根据特征对不同类别的样本进行分类
模式识别的核心为分类器(训练及算法)
人工智能之模式识别(一)
我们把通过分类器模型(算法)从样本中采集出能代表此样本的数据称为特征。若将一个样本的特征比喻成一个点,则许许多多不同类别的样本特征点就构成了一个样本空间。在样本空间中,我们根据特征之间的相似度来划分类别,特征相似度高的样本被判别为同一类
人工智能之模式识别(一)

2.分类依据

特征空间里的点可以表示为向量形式,此时我们使用距离(e.g.欧式距离)或非距离(e.g.汉明距离)的方式来度量相似度
若特征空间为集合的形式,相似度以其拓扑结构划分,则使用另外的方式进行度量
人工智能之模式识别(一)

3.紧致性准则

模式识别的分类要遵循紧致性准则
所谓紧致性准则,指的是,类内相似度要远大于类间相似度,即不同类别之间的“距离”要尽可能大,同一类的“距离”要尽可能小,以便于划分
在一定程度上增加特征维度,可以提高分类器的性能,因为更多的维度可以让系统学习到更细节的东西,分类理应更细致。但是盲目增加特征维度,却会导致“特征灾难”。
特征灾难,指的是,系统计算过高的特征维度时所面临的算力限制、性能下降问题。导致特征灾难的根本原因是,样本不足。
提取越高维度的特征,样本之间的细节就越被放大,样本之间的距离也就越大,使得同一类别的样本也被打散,样本的紧致性就下降了,性能就变差了
所以,为了避免特征灾难的问题,我们可以同步增加样本数量,减少特征维度(降维),提高每一维特征在表示样本时的效能
.人工智能之模式识别(一)

4.过拟合

过拟合指的是,训练出的模型对训练样本分类的效果很好,对训练样本以外的数据分类效果很差,即模型的泛化能力弱。
训练分类器的最终目的并不在于准确地对训练样本进行分类,而是对样本以外的数据进行分类
我们得到的数据样本中可能存在异常数据,或者存在噪声干扰,这时,如果一味追求样本集的分类效果,可能会降低训练参数的泛化能力,不能很好地对训练样本以外的数据进行分类。当然,训练样本太少,也会影响其泛化能力

5.总结回顾

模式识别是根据样本特征进行分类的过程,
以算法训练样本得到的参数和模型为重点,
以相似度区分不同种类样本,
紧致性越好,模型性能越好,
在一定程度上,增加特征维度可以提升紧致性,
但要注意特征表达的效能,
通常情况下,要避免过拟合情况的发生