机器学习正则化问题

前言:

因为经常出现欠拟合和过拟合的问题,欠拟合好处理,过拟合一般有两个处理的方法:
1.减少选取的变量 模型选择算法
2.正则化 保留所有特征变量,减少量级或参数的大小(L2正则化)

正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用更加简单的模型,以防止过拟合

增加罚项解决过拟合(侧面看正则化的道理)

机器学习正则化问题

两个正则化:

L1正则化范数:
符合拉普拉斯分布,是不完全可微的。表现在图像上会有很多角出现。这些角和目标函数的接触机会远大于其他部分。就会造成最优值出现在坐标轴上,因此就会导致某一维的权重为0 ,产生稀疏权重矩阵,进而防止过拟合。

L2正则化范数(接下来会介绍使用):
L2范数符合高斯分布,是完全可微的。和L1相比,图像上的棱角被圆滑了很多。一般最优值不会在坐标轴上出现。在最小化正则项时,可以是参数不断趋向于0.最后会得到很小的参数。
优缺点:
1)L1会有额外的好处:L1比L2更容易获得“稀疏”解,即它求得的w(特征的权重)会有更少的非零分量。换言之,L1正则化的学习方法就是一种嵌入式的特征选择方法!

2)L1正则化的计算公式不可导,而L2正则化公式可导,因为在优化时需要计算损失函数的偏导数,所以对L2正则化损失函数的优化更加简洁。优化L1正则化的损失函数要更加复杂,而且方法也很多种。

机器学习正则化问题
右边蓝色圈起来的就是加进去的正则化项,λ 是正则化参数,可调。

求参数方法:两个

机器学习正则化问题
可以看出,正则化线性回归的梯度下降算法的变化在于,每次都在原有算法更新规则的基础上令参数值减少了一个额外的值。
我们同样也可以利用正规方程来求解正则化线性回归模型,方法如下所示:
机器学习正则化问题
图中的矩阵尺寸为机器学习正则化问题
在之前讨论过X如果是奇异矩阵不可逆正规方程就不能用了,但在这里加入一个正则项,那X必定可逆,也是很好地解决了X不可逆的问题!