您的位置: 首页 > 文章 > Coursera - 机器学习基石 - 课程笔记 - Week 13

Coursera - 机器学习基石 - 课程笔记 - Week 13

分类: 文章 • 2023-11-02 11:31:46

Hazard of Overfitting

What is Overfitting？

高阶h拟合低阶f产生的样本，可以得到唯一解，造成 $E_{in}(g) = 0$
但是这样的情形下，完美拟合既有样本，无法“举一反三”， $E_{out}(g)$ 非常大
大的 $d_{vc}$ ，往往会造成糟糕的泛化能力
指定最小 $E_{out}$ 的VC维度为 $d_{vc}^{\ast}$
- 更大的 $d_{vc}$ ， $E_{in}$ 会变小，但是 $E_{out}$ 会因为模型更加复杂而上升（过拟合overfitting）
- 更小的 $d_{vc}$ ，由于模型过于简单， $E_{in}$ 会因为没能很好拟合样本而变大， $E_{out}$ 同样也会上升（欠拟合underfitting）
糟糕的泛化能力是过拟合过程中的模型能力体现
过拟合的可能原因：
- 过大的 $d_{vc}$ ，模型过于复杂
- 噪声
- 受限制样本数量 $N$

The Role of Noise and Data Size

$d_{vc}$ 并不是越大越好：泛化能力和拟合能力之间的妥协
数据量足够大时，在较大 $d_{vc}$ 的情形下也可以很好的泛化
噪声可能会让简单模型具有更好的泛化效果
数据样本的产生模型 $f$ 的复杂度本身会造成另一个层面的noise

Deterministic Noise

假设噪声为高斯噪声（形式确定，强度为 $\sigma^2$ ）
随机噪声，即上述的高斯噪声
确定噪声，产生模型的复杂引发的噪声——假设 $\mathcal{H}$ 与 $f$ 的差距
- 依赖于 $\mathcal{H}$ ：更大的集合可以有更小的确定性噪声
- 对于给定的 $\bold{x}$ 是固定的
受限的数据量会容易造成模型的过拟合
较大的随机噪声会容易造成模型的过拟合
加大的确定性噪声也会容易造成模型的过拟合
假设模型过强，同样会容易造成模型的过拟合

Dealing with Overfitting

缓解过拟合的情形：
- 从简单的模型开始尝试
- 修剪数据中的噪声（清理cleaning、裁剪pruning）
- 增加数据量（基于现有数据的扩增）（data hinting）
- 训练过程中的正则化约束
数据清理：更正标签
数据裁剪：去除不理想的样本
数据量增加：轻微平移或旋转，构造虚拟新样本
- 可能会影响原有数据的实际分布情况