过拟合——权重衰减

L2范数正则化(regularization)

1、过拟合——在训练集上表现得好,在测试集上表现得差(模型训练误差远小于它在测试集上的误差)

2、解决办法

  • 可以增大数据,但代价高,你以为数据都好弄到的吗???
  • 权重衰减 weight decay

3、什么是L2范数正则化呢?

正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是对付过拟合的常用手段

先来回想一下之前的线性回归模型,如下图
过拟合——权重衰减
损失函数如下图
过拟合——权重衰减
优化算法如下图
过拟合——权重衰减

而L2范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。将权重参数用向量w=[w1,w2]表示,带有L2范数惩罚项的新损失函数以及参数更新如下图过拟合——权重衰减
其中超参数λ>0。当权重参数均为0时,惩罚项最小。当λ较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当λ设为0时,惩罚项完全不起作用。

可见,L2范数正则化令权重w1和w2先自乘小于1的数,再减去不含惩罚项的梯度。因此,L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制,这可能对过拟合有效。实际场景中,我们有时也在惩罚项中添加偏差元素的平方和。