您的位置: 首页 > 文章 > 统计学习方法笔记——第一章统计学习方法概论（3）

统计学习方法笔记——第一章统计学习方法概论（3）

分类: 文章 • 2023-03-28 17:07:22

1 模型选择与评估

一个模型，若对数据的预测值与真实值很接近，那么便是一个好的模型。换句话说，好的模型对数据的预测能产生更小的误差。而误差分为两种：基于训练集的训练误差和基于测试集的测试误差。

训练误差反映的是一个问题是否容易学习，而测试误差才反映了模型对未知数据的预测能力，即测试误差小的模型，它的预测能力也必定更好。对于未知数据的预测能力，我们也称为泛化能力。

2 过拟合问题

过拟合指的是一个模型在训练集上的预测性能很好，甚至接近100%，但它的泛化能力却很差。过拟合出现的原因是因为模型一味的追求训练集上的预测准确率，把数据的一些典型的，非典型的特征全都学到了，导致模型过于复杂，参数过多，泛化能力很差。模型选择的一个宗旨就是要避免过拟合，提高模型的泛化能力。

关于过拟合，这里举个简单的例子来帮助理解。假设现在要做人脸识别，训练数据为10000张人脸，其中大部分人脸的右脸长有痣，现在一个模型学习了这10000张人脸图片，可能由于这个模型过于复杂，把人脸一些非典型的特征也算进去了，会觉得一定是右脸长痣的才叫人脸。现在把一张右脸无痣的人脸图像输入进去，该模型会判定为非人脸，因为右脸无痣。就是这个过程，导致泛化能力大大下降。

再给一个书上关于多项式函数拟合的例子：假设N个数据点均由同一个M次多项式生成，现在希望求这个M，使得该多项式对未知数据的预测误差也能很小（即好的泛化能力）。

首先，设M次多项式为：

统计学习方法笔记——第一章统计学习方法概论（3）

按照经验风险最小化的策略，求解其中的M+1个参数w0，...，wm：

统计学习方法笔记——第一章统计学习方法概论（3）

要确定所有参数Wj，使得经验风险函数最小。这是个多元函数的极值问题，有两种解决办法：

①数学分析的方法：将括号内与括号外的的两个求和符号分别展开，对Wj求偏导数，令其为0，求出所有的Wj；

②最小二乘法：基函数可选取1，x，......，x^m，具体做法详见数值分析相关教材。

确定参数以后，针对M=0，1，3，9，有如下拟合图像：

统计学习方法笔记——第一章统计学习方法概论（3）

可以看到，M=0和1时，模型过于简单，训练集和验证集上的表现都不好（这叫欠拟合）；而M=9时，训练集上表现完美，但对未知数据的预测能力很差。M=3时，预测的表现比较好。

3 防止过拟合的方法

①结构风险最小化，也称正则化

统计学习方法笔记——第一章统计学习方法概论（3）

具体的，有L1正则化：统计学习方法笔记——第一章统计学习方法概论（3）

和L2正则化：统计学习方法笔记——第一章统计学习方法概论（3）

正则化的作用是选择经验风险和模型复杂度同时小的模型。

②交叉验证

简单交叉验证：将数据集一部分划分为训练集，另一部分划分为测试集；

S折交叉验证：将数据集划分为S个互不相交的子集，其中S-1个作为训练集，剩下的作为测试集，这一划分过程可重复进行。

留一交叉验证：S=N的情况。

4 生成方法和判别方法

监督学习的方法可分为生成方法和判别方法，对应的模型叫做生成模型和判别模型。

生成方法：数据先学习联合概率分布，P（X，Y），再有联合概率分布求出条件概率分布：

统计学习方法笔记——第一章统计学习方法概论（3）

判别方法：数据直接学习决策函数或者条件概率分布。

比较：生成方法能还原出联合概率分布，学习收敛速度快；判别方法直接学习决策函数或条件概率分布，准确率更高。

5 分类问题

对于典型的二分类问题，分类的评价指标主要有精确率，召回率，F1度量等，所有公式如下：

统计学习方法笔记——第一章统计学习方法概论（3）

一般的，F1的值越高，说明分类的性能越好。