机器学习 - regularization
本文主要对机器学习中常用的两种正则化技术 L1/L2 regularization 进行介绍
正则化技术可以说是一种对模型复杂度进行限制的方法,假设我们的hypothesis space为,模型为,模型复杂度为,是一个从到(指大于等于0的实数)的映射。
所以在之前Constrained ERM的基础上,考虑正则化之后,出现了下面的表达,
Constrained ERM - Ivanov regularization (对模型复杂度的限制作为优化的约束条件)
下面是penalized版本。
Penalized ERM - Tikhonov regularization (对模型复杂度的限制加入到优化目标中)
在很多情形下,上述的两种正则化方法可以给出相同的结果。
了解了正则化的一般形式之后,下面以线性回归为例介绍L1/L2 regularization(以penalized版本为例)。
Ridge Regression (L2)
Lasso Regression (L1)
那么L1/L2 regularization有什么区别呢?大家都知道,区别主要是在于L1 regularization会带来权重的sparsity,也就是有一些权重会是0。那么为什么会有这个结果呢?
先看一下下面这两幅图,这个是用funding,not-hs,college4,college以及hs这5个特征用linear regression去拟合一个target变量,随着正则化程度的降低(也就是x轴从左到右),linear model的各个特征对应的系数的变化情况。
所以通过对比确实可以发现Lasso相对于Ridge有系数直接置为0的特点。
相信这张图大家看到应该都不陌生,这是一般在讲到L1的sparsity的时候都会用的图,那么这个图怎么看怎么理解呢?
首先,假设我们的特征是2维的,那么我们的hypothesis space 可以表示为,可视化为,也就是2-D平面内的每一个点现在代码一个linear function。所以下图左右的蓝色部分分别表示L1-norm和L2-norm的等高线(参考上述的Ivanov regularization形式)。而具有sparsity的linear model,就是在坐标轴上的点。
下图中的表示什么呢,表示的是没有正则化项存在时,Constrained ERM求到的解。而我们可以发现这个解显然不满足我们的正则化约束条件,所以现在的任务就是要找一个满足约束条件,并且可以使Empirical Risk尽可能小的点。
于是绘制Empirical Risk的等高线图,因为和的数据大小尺度不一定相同的原因,所以等高线是椭圆,当误差等高线与正则化项等高线第一次有交点时,我们就找到了我们想找的点了,因为一个点表示一个linear model,所以也就是找到了我们想要的model。
因为L1相比于L2,交点更容易出现在坐标轴上,所以L1-regularization更会产生sparsity。该课程的教授提出了一种比较直观的考虑方式,如下图所示,
蓝色区域是L1-norm的等高线,为了方便考虑,我们现在假设Empirical Risk的等高线图为正圆,那么只要在黄色区域的时候,交点就会出现在坐标轴上,所以可以发现L1有较大的几率出现sparsity的可能。
参考资料:NYU 《Deep Learning》 2020