正则化——学习笔记
常见问题:
1.如何防止过拟合?
2.为什么正则化可以防止过拟合?数学的角度?
3.为什么L1正则化具有稀疏性?/为什么L1正则化可以用来做特征选择?
过拟合vs欠拟合
1.如何防止过拟合?
必答:+正则项(L1、L2)
2.为什么正则化可以防止过拟合?数学的角度?
- 简单回答:
模型复杂度与参数向量有关,参数越多,模型相越复杂,参数越少,相对较简单(w-->0或w=o相当于参数个数减少),正则化容易使更多的参数为0或趋于0,从而降低模型复杂度,所以可以防止过拟合。
- 如何从数学角度理解正则化可以防止过拟合?
- 经验风险与结构风险
- KKT条件:
结论:加正则项等价于加约束条件,结构风险损失函数(加上正则项的损失函数)最小化相当于对w和λ求偏导为0,相当于经验风险损失函数最小化,因为加上正则项后求偏导时,相当于加的常数,对求导结果无影响。
3.为什么L1正则化具有稀疏性?
此问题等价于:
为什么L1正则能使得更多的参数为0?
为什么L1正则能够做特征选择?
如何理解:更多的参数为0可以做特征选择?
假如一个成年人小偷站在一群大人中间被挑出来的概率较小,如果这群人中不是小偷人走掉一些(参数为0),那么相应小偷被发现的概率就增大,同理,如果和一群小孩站在一起(参数趋于0),也是很容易发现小偷的。
(1)从解空间形状角度
- 等值线:
在 等值线上每一点的损失都相同
结论:L1中的正则项更易与损失函数等值线在坐标轴出相切(使得更多的参数为0),所以更具有稀疏性。
(2)从贝叶斯先验角度
- 正态分布:
- 拉普拉斯分布:
- 贝叶斯先验与正则化的关系:
绿色线是拉普拉斯分布
红色线是标准正太分布
结论:拉普拉斯在0点处更集中,更易取0,所以更具有稀疏性。
参考资料:
《统计学习方法》第2版,李航
哔哩哔哩高能up主讲解如下:
https://www.bilibili.com/video/BV1aE411L7sj?p=1
拓展资料库: