Coursera - 机器学习基石 - 课程笔记 - Week 13

Hazard of Overfitting

What is Overfitting?

  • 高阶h拟合低阶f产生的样本,可以得到唯一解,造成Ein(g)=0E_{in}(g) = 0

  • 但是这样的情形下,完美拟合既有样本,无法“举一反三”,Eout(g)E_{out}(g)非常大

  • 大的dvcd_{vc},往往会造成糟糕的泛化能力

  • 指定最小EoutE_{out}的VC维度为dvcd_{vc}^{\ast}

    • 更大的dvcd_{vc}EinE_{in}会变小,但是EoutE_{out}会因为模型更加复杂而上升(过拟合overfitting)
    • 更小的dvcd_{vc},由于模型过于简单,EinE_{in}会因为没能很好拟合样本而变大,EoutE_{out}同样也会上升(欠拟合underfitting)
      Coursera - 机器学习基石 - 课程笔记 - Week 13
  • 糟糕的泛化能力是过拟合过程中的模型能力体现

  • 过拟合的可能原因:

    • 过大的dvcd_{vc},模型过于复杂
    • 噪声
    • 受限制样本数量NN

The Role of Noise and Data Size

  • dvcd_{vc}并不是越大越好:泛化能力和拟合能力之间的妥协
  • 数据量足够大时,在较大dvcd_{vc}的情形下也可以很好的泛化
  • 噪声可能会让简单模型具有更好的泛化效果
  • 数据样本的产生模型ff的复杂度本身会造成另一个层面的noise

Deterministic Noise

  • 假设噪声为高斯噪声(形式确定,强度为σ2\sigma^2
    Coursera - 机器学习基石 - 课程笔记 - Week 13

  • 随机噪声,即上述的高斯噪声

  • 确定噪声,产生模型的复杂引发的噪声——假设H\mathcal{H}ff的差距

    • 依赖于H\mathcal{H}:更大的集合可以有更小的确定性噪声
    • 对于给定的x\bold{x}是固定的
  • 受限的数据量会容易造成模型的过拟合

  • 较大的随机噪声会容易造成模型的过拟合

  • 加大的确定性噪声也会容易造成模型的过拟合

  • 假设模型过强,同样会容易造成模型的过拟合

Dealing with Overfitting

  • 缓解过拟合的情形:
    • 从简单的模型开始尝试
    • 修剪数据中的噪声(清理cleaning、裁剪pruning)
    • 增加数据量(基于现有数据的扩增)(data hinting)
    • 训练过程中的正则化约束
  • 数据清理:更正标签
  • 数据裁剪:去除不理想的样本
  • 数据量增加:轻微平移或旋转,构造虚拟新样本
    • 可能会影响原有数据的实际分布情况