正则化——学习笔记

常见问题:

1.如何防止过拟合?

2.为什么正则化可以防止过拟合?数学的角度?

3.为什么L1正则化具有稀疏性?/为什么L1正则化可以用来做特征选择?

 

过拟合vs欠拟合

正则化——学习笔记

1.如何防止过拟合?

必答:+正则项(L1、L2)

2.为什么正则化可以防止过拟合?数学的角度?

  • 简单回答:

模型复杂度与参数向量有关,参数越多,模型相越复杂,参数越少,相对较简单(w-->0或w=o相当于参数个数减少),正则化容易使更多的参数为0或趋于0,从而降低模型复杂度,所以可以防止过拟合。

  • 如何从数学角度理解正则化可以防止过拟合?
  • 经验风险与结构风险

正则化——学习笔记

 

  • KKT条件:

正则化——学习笔记

正则化——学习笔记

结论:加正则项等价于加约束条件,结构风险损失函数(加上正则项的损失函数)最小化相当于对w和λ求偏导为0,相当于经验风险损失函数最小化,因为加上正则项后求偏导时,相当于加的常数,对求导结果无影响。

 

3.为什么L1正则化具有稀疏性?

此问题等价于:

为什么L1正则能使得更多的参数为0?

为什么L1正则能够做特征选择?

 

如何理解:更多的参数为0可以做特征选择?

假如一个成年人小偷站在一群大人中间被挑出来的概率较小,如果这群人中不是小偷人走掉一些(参数为0),那么相应小偷被发现的概率就增大,同理,如果和一群小孩站在一起(参数趋于0),也是很容易发现小偷的。

(1)从解空间形状角度

  • 等值线:

在 等值线上每一点的损失都相同

正则化——学习笔记

正则化——学习笔记

正则化——学习笔记正则化——学习笔记

结论:L1中的正则项更易与损失函数等值线在坐标轴出相切(使得更多的参数为0),所以更具有稀疏性。

(2)从贝叶斯先验角度

  • 正态分布:

正则化——学习笔记

  • 拉普拉斯分布:

正则化——学习笔记

  • 贝叶斯先验与正则化的关系:

正则化——学习笔记

正则化——学习笔记正则化——学习笔记

正则化——学习笔记

绿色线是拉普拉斯分布

红色线是标准正太分布

正则化——学习笔记

 

结论:拉普拉斯在0点处更集中,更易取0,所以更具有稀疏性。

 

参考资料:

《统计学习方法》第2版,李航

哔哩哔哩高能up主讲解如下:

https://www.bilibili.com/video/BV1aE411L7sj?p=1

拓展资料库:

KKT条件延伸:https://zhuanlan.zhihu.com/p/26514613

正则化的概率解释:https://zhuanlan.zhihu.com/p/56185913