统计学习方法笔记——第一章 统计学习方法概论(3)

1   模型选择与评估

    一个模型,若对数据的预测值与真实值很接近,那么便是一个好的模型。换句话说,好的模型对数据的预测能产生更小的误差。而误差分为两种:基于训练集的训练误差和基于测试集的测试误差。

    训练误差反映的是一个问题是否容易学习,而测试误差才反映了模型对未知数据的预测能力,即测试误差小的模型,它的预测能力也必定更好。对于未知数据的预测能力,我们也称为泛化能力。


2   过拟合问题

    过拟合指的是一个模型在训练集上的预测性能很好,甚至接近100%,但它的泛化能力却很差。过拟合出现的原因是因为模型一味的追求训练集上的预测准确率,把数据的一些典型的,非典型的特征全都学到了,导致模型过于复杂,参数过多,泛化能力很差。模型选择的一个宗旨就是要避免过拟合,提高模型的泛化能力。

    关于过拟合,这里举个简单的例子来帮助理解。假设现在要做人脸识别,训练数据为10000张人脸,其中大部分人脸的右脸长有痣,现在一个模型学习了这10000张人脸图片,可能由于这个模型过于复杂,把人脸一些非典型的特征也算进去了,会觉得一定是右脸长痣的才叫人脸。现在把一张右脸无痣的人脸图像输入进去,该模型会判定为非人脸,因为右脸无痣。就是这个过程,导致泛化能力大大下降。

    再给一个书上关于多项式函数拟合的例子:假设N个数据点均由同一个M次多项式生成,现在希望求这个M,使得该多项式对未知数据的预测误差也能很小(即好的泛化能力)。

    首先,设M次多项式为:

统计学习方法笔记——第一章 统计学习方法概论(3)

    按照经验风险最小化的策略,求解其中的M+1个参数w0,...,wm:

    统计学习方法笔记——第一章 统计学习方法概论(3)

    要确定所有参数Wj,使得经验风险函数最小。这是个多元函数的极值问题,有两种解决办法:

    ①数学分析的方法:将括号内与括号外的的两个求和符号分别展开,对Wj求偏导数,令其为0,求出所有的Wj;

    ②最小二乘法:基函数可选取1,x,......,x^m,具体做法详见数值分析相关教材。

    确定参数以后,针对M=0,1,3,9,有如下拟合图像:

统计学习方法笔记——第一章 统计学习方法概论(3)

    可以看到,M=0和1时,模型过于简单,训练集和验证集上的表现都不好(这叫欠拟合);而M=9时,训练集上表现完美,但对未知数据的预测能力很差。M=3时,预测的表现比较好。


3   防止过拟合的方法

①结构风险最小化,也称正则化

统计学习方法笔记——第一章 统计学习方法概论(3)

   具体的,有L1正则化:统计学习方法笔记——第一章 统计学习方法概论(3)

                 和L2正则化:统计学习方法笔记——第一章 统计学习方法概论(3)

   正则化的作用是选择经验风险和模型复杂度同时小的模型。


②交叉验证

简单交叉验证:将数据集一部分划分为训练集,另一部分划分为测试集;

S折交叉验证:将数据集划分为S个互不相交的子集,其中S-1个作为训练集,剩下的作为测试集,这一划分过程可重复进行。

留一交叉验证:S=N的情况。


4   生成方法和判别方法

监督学习的方法可分为生成方法和判别方法,对应的模型叫做生成模型和判别模型。

生成方法:数据先学习联合概率分布,P(X,Y),再有联合概率分布求出条件概率分布:

统计学习方法笔记——第一章 统计学习方法概论(3)

判别方法:数据直接学习决策函数或者条件概率分布。


比较:生成方法能还原出联合概率分布,学习收敛速度快;判别方法直接学习决策函数或条件概率分布,准确率更高。



5   分类问题

对于典型的二分类问题,分类的评价指标主要有精确率,召回率,F1度量等,所有公式如下:

统计学习方法笔记——第一章 统计学习方法概论(3)

一般的,F1的值越高,说明分类的性能越好。