正则化(1) L1和L2正则化
正则化(Regularization)
参考:
https://blog.****.net/jinping_shi/article/details/52433975
https://blog.****.net/u012162613/article/details/44261657
1. 正则化的概念
规则化 vs 正则化
- 规则化,顾名思义,给你的模型加入某些规则,来达到某些目的(在机器学习或深度学习中是为了防止过拟合)
- 正则化,与规则化是同一个意思。
正则项一般加在损失函数后面,英文是-norm和-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。
2. L1范数和L2范数
- L1范数:,指权值向量中各个元素的绝对值之和
- L2范数:,指权值向量中各个元素的平方和然后再求平方根
3. 线性回归的正则化
- 线性回归+L1正则项:Lasso回归
- 线性回归+L2正则项:Ridge回归(岭回归)
4. L1和L2正则化的作用
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。
- L2正则化可以防止模型过拟合。(一定程度上,L1也可以防止过拟合)。
L1正则化-特征选择
1. 稀疏模型与特征选择
L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。那么,为什么要生成一个稀疏矩阵?
稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。
举个栗子,患病回归模型,通过学习,最后学习到的就只有很少几个非零元素,例如只有5个非零的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。
2. L1正则化的图形理解
参考机器学习中正则化项L1和L2的直观理解
假设有如下带L1正则化的损失函数:
令
考虑二维的情况,即只有两个权值和,此时,对于梯度下降法,求解的过程可以画出等值线,同时L1正则化的函数L
也可以在的二维平面上画出来。如下图:
图1 L1正则化
图中等值线是的等值线,黑色方形是L函数的图形(也就是约束条件)。在图中,当等值线与L图形首次相交的地方就是最优解。上图中与L在L的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是。可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多),与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。
而正则化前面的系数,可以控制L图形的大小。越小,L的图形越大(上图中的黑色方框);越大,L的图形就越小,可以小到黑色方框只超出原点范围一点点,这时最优点的值中的可以取到很小的值。也就是说,L1正则化在一定程度上可以防止过拟合(下文有说明值小就可以防止过拟合的原因)。
3. L1正则化的公式推导
参考正则化方法:L1和L2 regularization、数据集扩增、dropout
将
计算导数:
另外,上面没有提到一个问题,当为0时怎么办?当等于0时,是不可导的,所以我们只能按照原始的未经正则化的方法去更新,这就相当于去掉这一项,所以我们可以规定sgn(0)=0,这样就把=0的情况也统一进来了。(在编程的时候,令sgn(0)=0,sgn(>0)=1,sgn(<0)=-1)
L2正则化-防止过拟合
1. L2正则化的图形理解
假设有如下带L2正则化的损失函数:
图2 L2正则化
二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此与L相交时使得或等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。
2. 抗扰动能力强——参数很小
损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。通常将一般形式的损失函数(参考机器学习总结(一):常见的损失函数)表示为如下:
拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』。
3. L2正则化可以获得值很小的参数
以线性回归中的梯度下降法为例。假设要求的参数为,是我们的假设函数,那么线性回归的代价函数如下:
其中是learning rate. 上式是没有添加L2正则化项的迭代公式,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:
从上式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代,都要先乘以一个小于1的因子,从而使得不断减小,因此总得来看,是不断减小的。因此L2正则化可以使模型简单,防止过拟合。
最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释,当L1的正则化系数很小时,得到的最优解会很小,可以达到和L2正则化类似的效果。
4. L2正则化权重衰减的公式推导
将
计算导数:
到目前为止,我们只是解释了L2正则化项有让“变小”的效果,但是还没解释为什么“变小”可以防止overfitting?一个所谓“显而易见”的解释就是:更小的权值,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。