Coursera - 机器学习基石 - 课程笔记 - Week 13
Hazard of Overfitting
What is Overfitting?
-
高阶h拟合低阶f产生的样本,可以得到唯一解,造成
-
但是这样的情形下,完美拟合既有样本,无法“举一反三”,非常大
-
大的,往往会造成糟糕的泛化能力
-
指定最小的VC维度为
- 更大的,会变小,但是会因为模型更加复杂而上升(过拟合overfitting)
- 更小的,由于模型过于简单,会因为没能很好拟合样本而变大,同样也会上升(欠拟合underfitting)
-
糟糕的泛化能力是过拟合过程中的模型能力体现
-
过拟合的可能原因:
- 过大的,模型过于复杂
- 噪声
- 受限制样本数量
The Role of Noise and Data Size
- 并不是越大越好:泛化能力和拟合能力之间的妥协
- 数据量足够大时,在较大的情形下也可以很好的泛化
- 噪声可能会让简单模型具有更好的泛化效果
- 数据样本的产生模型的复杂度本身会造成另一个层面的noise
Deterministic Noise
-
假设噪声为高斯噪声(形式确定,强度为)
-
随机噪声,即上述的高斯噪声
-
确定噪声,产生模型的复杂引发的噪声——假设与的差距
- 依赖于:更大的集合可以有更小的确定性噪声
- 对于给定的是固定的
-
受限的数据量会容易造成模型的过拟合
-
较大的随机噪声会容易造成模型的过拟合
-
加大的确定性噪声也会容易造成模型的过拟合
-
假设模型过强,同样会容易造成模型的过拟合
Dealing with Overfitting
- 缓解过拟合的情形:
- 从简单的模型开始尝试
- 修剪数据中的噪声(清理cleaning、裁剪pruning)
- 增加数据量(基于现有数据的扩增)(data hinting)
- 训练过程中的正则化约束
- 数据清理:更正标签
- 数据裁剪:去除不理想的样本
- 数据量增加:轻微平移或旋转,构造虚拟新样本
- 可能会影响原有数据的实际分布情况