常见问题：

1.如何防止过拟合？

2.为什么正则化可以防止过拟合？数学的角度？

3.为什么L1正则化具有稀疏性？/为什么L1正则化可以用来做特征选择？

过拟合vs欠拟合

正则化——学习笔记

1.如何防止过拟合？

必答：+正则项（L1、L2）

2.为什么正则化可以防止过拟合？数学的角度？

简单回答：

模型复杂度与参数向量有关，参数越多，模型相越复杂，参数越少，相对较简单（w-->0或w=o相当于参数个数减少），正则化容易使更多的参数为0或趋于0，从而降低模型复杂度，所以可以防止过拟合。

如何从数学角度理解正则化可以防止过拟合？
经验风险与结构风险

正则化——学习笔记

KKT条件：

正则化——学习笔记

结论：加正则项等价于加约束条件，结构风险损失函数（加上正则项的损失函数）最小化相当于对w和λ求偏导为0，相当于经验风险损失函数最小化，因为加上正则项后求偏导时，相当于加的常数，对求导结果无影响。

3.为什么L1正则化具有稀疏性？

此问题等价于：

为什么L1正则能使得更多的参数为0？

为什么L1正则能够做特征选择？

如何理解：更多的参数为0可以做特征选择？

假如一个成年人小偷站在一群大人中间被挑出来的概率较小，如果这群人中不是小偷人走掉一些（参数为0），那么相应小偷被发现的概率就增大，同理，如果和一群小孩站在一起（参数趋于0），也是很容易发现小偷的。

（1）从解空间形状角度

等值线：

在等值线上每一点的损失都相同

正则化——学习笔记

结论：L1中的正则项更易与损失函数等值线在坐标轴出相切（使得更多的参数为0），所以更具有稀疏性。

（2）从贝叶斯先验角度

正态分布：

正则化——学习笔记

拉普拉斯分布：

正则化——学习笔记

贝叶斯先验与正则化的关系：

正则化——学习笔记

绿色线是拉普拉斯分布

红色线是标准正太分布

正则化——学习笔记

结论：拉普拉斯在0点处更集中，更易取0，所以更具有稀疏性。

参考资料：

《统计学习方法》第2版，李航

哔哩哔哩高能up主讲解如下：

https://www.bilibili.com/video/BV1aE411L7sj?p=1

拓展资料库：

KKT条件延伸：https://zhuanlan.zhihu.com/p/26514613

正则化的概率解释：https://zhuanlan.zhihu.com/p/56185913

正则化——学习笔记

1.如何防止过拟合？

2.为什么正则化可以防止过拟合？数学的角度？

3.为什么L1正则化具有稀疏性？

（1）从解空间形状角度

（2）从贝叶斯先验角度

相关推荐