正则化（Regularization）

参考：
https://blog.****.net/jinping_shi/article/details/52433975
https://blog.****.net/u012162613/article/details/44261657

1. 正则化的概念

规则化 vs 正则化
- 规则化，顾名思义，给你的模型加入某些规则，来达到某些目的（在机器学习或深度学习中是为了防止过拟合）
- 正则化，与规则化是同一个意思。

正则项一般加在损失函数后面，英文是 $l_{1}$ -norm和 $l_{2}$ -norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。

2. L1范数和L2范数

L1范数： $| | ω | |_{1}$ ，指权值向量 $ω$ 中各个元素的绝对值之和
L2范数： $| | ω | |_{2}$ ，指权值向量 $ω$ 中各个元素的平方和然后再求平方根

3. 线性回归的正则化

线性回归+L1正则项：Lasso回归
线性回归+L2正则项：Ridge回归（岭回归）

4. L1和L2正则化的作用

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。
L2正则化可以防止模型过拟合。（一定程度上，L1也可以防止过拟合）。

L1正则化-特征选择

1. 稀疏模型与特征选择

L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。那么，为什么要生成一个稀疏矩阵？

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

举个栗子，患病回归模型 $y = ω_{1} x_{1} + ω_{2} x_{2} + . . . + ω_{1000} x_{1000} + b$ ，通过学习，最后学习到的 $ω$ 就只有很少几个非零元素，例如只有5个非零的 $ω_{i}$ 。也就是说，患不患这种病只和这5个因素有关，那医生就好分析多了。

2. L1正则化的图形理解

参考机器学习中正则化项L1和L2的直观理解
假设有如下带L1正则化的损失函数：

\begin{matrix} (1) & J = J_{0} + α \sum_{w} | w | \end{matrix}

其中

J_{0}

是原始的损失函数，加号后面的一项是L1正则化项，

α

是正则化系数。注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。当我们在原始损失函数

J_{0}

后添加L1正则化项时，相当于对

J_{0}

做了一个约束。

令

L = α \sum_{ω} | ω |

则

J = J_{0} + L

此时我们的任务变成在L约束下求出

J_{0}

取最小值的解。

考虑二维的情况，即只有两个权值 $w^{1}$ 和 $w^{2}$ ，此时 $L = | w^{1} | + | w^{2} |$ ，对于梯度下降法，求解 $J_{0}$ 的过程可以画出等值线，同时L1正则化的函数L
也可以在 $w^{1} w^{2}$ 的二维平面上画出来。如下图：
正则化(1) L1和L2正则化
图1 L1正则化

图中等值线是 $J_{0}$ 的等值线，黑色方形是L函数的图形(也就是约束条件)。在图中，当 $J_{0}$ 等值线与L图形首次相交的地方就是最优解。上图中 $J_{0}$ 与L在L的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是 $(w^{1}, w^{2}) = (0, w)$ 。可以直观想象，因为L函数有很多『突出的角』（二维情况下四个，多维情况下更多）， $J_{0}$ 与这些角接触的机率会远大于与L其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

而正则化前面的系数 $α$ ，可以控制L图形的大小。 $α$ 越小，L的图形越大（上图中的黑色方框）； $α$ 越大，L的图形就越小，可以小到黑色方框只超出原点范围一点点，这时最优点的值 $(w^{1}, w^{2}) = (0, w)$ 中的 $ω$ 可以取到很小的值。也就是说，L1正则化在一定程度上可以防止过拟合（下文有说明 $ω$ 值小就可以防止过拟合的原因）。

3. L1正则化的公式推导

参考正则化方法：L1和L2 regularization、数据集扩增、dropout
将

J = J_{0} + α \sum_{ω} | ω |

写成：

C = C_{0} + \frac{λ}{n} \sum_{ω} | ω |

（即：J用C表示，

α

用

\frac{λ}{n}

表示）
计算导数：

\frac{\partial C}{\partial ω} = \frac{\partial C_{0}}{\partial ω} + \frac{λ}{n} s g n (ω)

上式中

s g n (ω)

表示

ω

的符号。那么权重

ω

的更新规则为：

\begin{aligned} ω \to ω^{^{'}} & = ω - η \frac{\partial C}{\partial ω} \\ = ω - η (\frac{\partial C_{0}}{\partial ω} + \frac{λ}{n} s g n (ω)) \\ = ω - η \frac{\partial C_{0}}{\partial ω} - η \frac{λ}{n} s g n (ω) \end{aligned}

比原始的更新规则多出了

η \frac{λ}{n} s g n (ω)

这一项。当

ω

为正时，更新后的

ω

变小。当

ω

为负时，更新后的

ω

变大——因此它的效果就是让

ω

往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。

另外，上面没有提到一个问题，当 $ω$ 为0时怎么办？当 $ω$ 等于0时， $| ω |$ 是不可导的，所以我们只能按照原始的未经正则化的方法去更新 $ω$ ，这就相当于去掉 $η \frac{λ}{n} s g n (ω)$ 这一项，所以我们可以规定sgn(0)=0，这样就把 $ω$ =0的情况也统一进来了。（在编程的时候，令sgn(0)=0,sgn( $ω$ >0)=1,sgn( $ω$ <0)=-1）

L2正则化-防止过拟合

1. L2正则化的图形理解

假设有如下带L2正则化的损失函数：

\begin{matrix} (2) & J = J_{0} + α \sum_{w} w^{2} \end{matrix}

同样可以画出他们在二维平面上的图形，如下：
正则化(1) L1和L2正则化

图2 L2正则化

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此 $J_{0}$ 与L相交时使得 $w^{1}$ 或 $w^{2}$ 等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

2. 抗扰动能力强——参数很小

损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。通常将一般形式的损失函数（参考机器学习总结（一）：常见的损失函数）表示为如下：

\begin{matrix} (1) & θ^{*} = a r g m i n \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}; θ_{i})) + λ Φ (θ) \end{matrix}

我们既要让训练误差（上式第一项）最小，又要让模型尽可能简单（上式第二项）。于是我们有个朴素的想法：那就让权重

ω

（在上式中为

θ

）多几个为0（或者接近于0，说明该节点影响很小）就好了，相当于在神经网络中删掉一些节点，这样模型就变得简单了。
正则化(1) L1和L2正则化

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

3. L2正则化可以获得值很小的参数

以线性回归中的梯度下降法为例。假设要求的参数为 $θ$ ， $h_{θ} (x)$ 是我们的假设函数，那么线性回归的代价函数如下：

\begin{matrix} (3) & J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} \end{matrix}

那么在梯度下降法中，最终用于迭代计算参数

θ

的迭代式为：

\begin{matrix} (4) & θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \end{matrix}

（上式在logistic回归损失函数与梯度下降中有介绍）
其中

α

是learning rate. 上式是没有添加L2正则化项的迭代公式，如果在原始代价函数之后添加L2正则化，则迭代公式会变成下面的样子：

\begin{matrix} (5) & θ_{j} := θ_{j} (1 - α \frac{λ}{m}) - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \end{matrix}

其中

λ

就是正则化参数。
从上式可以看到，与未添加L2正则化的迭代公式相比，每一次迭代，

θ_{j}

都要先乘以一个小于1的因子，从而使得

θ_{j}

不断减小，因此总得来看，

θ

是不断减小的。因此L2正则化可以使模型简单，防止过拟合。

最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释，当L1的正则化系数很小时，得到的最优解会很小，可以达到和L2正则化类似的效果。

4. L2正则化权重衰减的公式推导

将

\begin{matrix} (2) & J = J_{0} + α \sum_{w} w^{2} \end{matrix}

写成

C = C_{0} + \frac{λ}{2 n} \sum_{ω} ω^{2}

（即：J用C表示，

α

用

\frac{λ}{2 n}

表示，为了后面求导的结果方便。）
计算导数：

\frac{\partial C}{\partial ω} = \frac{\partial C_{0}}{\partial ω} + \frac{λ}{n} ω

\begin{aligned} ω \to ω^{^{'}} & = ω - η \frac{\partial C}{\partial ω} \\ = ω - η (\frac{\partial C_{0}}{\partial ω} + \frac{λ}{n} ω) \\ = ω - η \frac{\partial C_{0}}{\partial ω} - η \frac{λ}{n} ω \\ = (1 - η \frac{λ}{n}) ω - η \frac{\partial C_{0}}{\partial ω} \end{aligned}

在不使用L2正则化时，求导结果中

ω

前系数为1，现在

ω

前面系数为

1 - η \frac{λ}{n}

，因为η、λ、n都是正的，所以

1 - η \frac{λ}{n}

小于1，它的效果是减小

ω

，这也就是权重衰减（weight decay）的由来。当然考虑到后面的导数项，

ω

最终的值可能增大也可能减小。

到目前为止，我们只是解释了L2正则化项有让 $ω$ “变小”的效果，但是还没解释为什么 $ω$ “变小”可以防止overfitting？一个所谓“显而易见”的解释就是：更小的权值 $ω$ ，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。

正则化(1) L1和L2正则化