范数与正则化

范数

比较1、2两个数字的大小，其结果显而易见。但我们如何比较（3,6）、（4,5）两个向量的大小呢？此时就用到了范数。范数是衡量某个向量空间（或矩阵）中的每个向量的长度或大小。范数的一般化定义：对实数p>=1，范数定义如下：

范数与正则化

L1范数

当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。

L2范数

当p=2时，是L2范数，表示某个向量中所有元素平方和再开方，也就是欧几里得距离公式。

举例说明

向量（3,6）的L2范数为范数与正则化，向量（4,5）的L2范数为，因此向量（3,6）的L2范数大于向量（4,5）的L2范数。

正则化

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种： ℓ1-norm 和 ℓ2-norm（ L1正则化和 L2正则化，或者 L1范数和 L2范数）。正则化项可以看做是损失函数的惩罚项。所谓“惩罚“是指对损失函数中的某些参数做一些限制，可以有效的防止模型过拟合。

L1正则化，Lasso回归

其损失函数如下所示：

范数与正则化

上式中范数与正则化代表网络中需要训练的参数，超参数需要人为指定。我们训练的目标是损失值最小化，即，为了达到这个目的我们需要训练得到一组合适的值，使其能够保证与两项都足够小。

需要注意的是，L1正则化使用绝对值来约束参数，导致其在0点不可微分，这种情况下参数范数与正则化很有可能最终被约束为0。假设模型需要训练的参数空间是二维的，即只有与两个参数，则训练过程可用下图表示：

范数与正则化

上图中正方形代表L1正则下的参数限制空间，彩色等值线代表参数优化空间，模型优化与训练其实就是在优化空间与限制空间的参数当中，寻找最优参数值的过程。从图中可以看出，优化空间与限制空间有很大的概率相交于坐标轴上，即使扩展到更高的参数维度，L1的参数限制空间始终存在尖锐的凸点，这意味着L1正则可能会将网络中某些参数约束为0，从而导致参数的稀疏化。如果需要做模型压缩，L1正则是一个不错的选择。

L2正则化，Ridge回归（岭回归）

其损失函数如下所示：

范数与正则化

L2正则下的参数限制空间与参数优化空间的交点在参数0点的概率很低。因此L2正则化可以使参数尽可能的小，但不至于为0，这样既保留了模型的拟合能力，同时也增加了泛化能力，因此L2一般情况下更常用。如下图所示：

范数与正则化

参考文章：https://www.jianshu.com/p/c9bb6f89cfcc

https://blog.****.net/jinping_shi/article/details/52433975

《深度学习之pytorch物体检测实战》

范数

正则化

相关推荐