机器学习 - regularization

本文主要对机器学习中常用的两种正则化技术 L1/L2 regularization 进行介绍

正则化技术可以说是一种对模型复杂度进行限制的方法，假设我们的hypothesis space为 $\mathcal F$ ，模型为 $f$ ，模型复杂度为 $\Omega(f)$ ， $\Omega$ 是一个从 $\mathcal F$ 到 $R^{\geq 0}$ （指大于等于0的实数）的映射。

所以在之前Constrained ERM的基础上，考虑正则化之后，出现了下面的表达，

Constrained ERM - Ivanov regularization (对模型复杂度的限制作为优化的约束条件)

$min_{f\in\mathcal F}\frac{1}{n}\Sigma_{i=1}^nl(f(x_i), y_i)$ $s.t.\ \Omega(f)\leq r$

下面是penalized版本。

Penalized ERM - Tikhonov regularization (对模型复杂度的限制加入到优化目标中)

$min_{f\in \mathcal F}\frac{1}{n}\Sigma_{i=1}^nl(f(x_i), y_i)+\lambda \Omega(f)$

在很多情形下，上述的两种正则化方法可以给出相同的结果。

了解了正则化的一般形式之后，下面以线性回归为例介绍L1/L2 regularization（以penalized版本为例）。

Ridge Regression (L2)

$\widehat w=argmin_{w\in R^d}\frac{1}{n}\Sigma_{n=1}^n(w^Tx_i-y_i)^2+\lambda ||w||_2^2$

Lasso Regression (L1)

$\widehat w=argmin_{w\in R^d}\frac{1}{n}\Sigma_{n=1}^n(w^Tx_i-y_i)^2+\lambda ||w||_1$

那么L1/L2 regularization有什么区别呢？大家都知道，区别主要是在于L1 regularization会带来权重的sparsity，也就是有一些权重会是0。那么为什么会有这个结果呢？

先看一下下面这两幅图，这个是用funding，not-hs，college4，college以及hs这5个特征用linear regression去拟合一个target变量，随着正则化程度的降低（也就是x轴从左到右），linear model的各个特征对应的系数的变化情况。

所以通过对比确实可以发现Lasso相对于Ridge有系数直接置为0的特点。
机器学习 - regularization

相信这张图大家看到应该都不陌生，这是一般在讲到L1的sparsity的时候都会用的图，那么这个图怎么看怎么理解呢？

首先，假设我们的特征是2维的，那么我们的hypothesis space $\mathcal F$ 可以表示为 $\mathcal F=\{ f(x)=\beta_1x_1+\beta_2x_2\}$ ，可视化为 $\{(\beta_1, \beta_2)\in R^2\}$ ，也就是2-D平面内的每一个点现在代码一个linear function。所以下图左右的蓝色部分分别表示L1-norm和L2-norm的等高线（参考上述的Ivanov regularization形式）。而具有sparsity的linear model，就是在坐标轴上的点。

下图中的 $\hat\beta$ 表示什么呢，表示的是没有正则化项存在时，Constrained ERM求到的解。而我们可以发现这个解显然不满足我们的正则化约束条件，所以现在的任务就是要找一个满足约束条件，并且可以使Empirical Risk尽可能小的点。

于是绘制Empirical Risk的等高线图，因为 $x_1$ 和 $x_2$ 的数据大小尺度不一定相同的原因，所以等高线是椭圆，当误差等高线与正则化项等高线第一次有交点时，我们就找到了我们想找的点了，因为一个点表示一个linear model，所以也就是找到了我们想要的model。

机器学习 - regularization

因为L1相比于L2，交点更容易出现在坐标轴上，所以L1-regularization更会产生sparsity。该课程的教授提出了一种比较直观的考虑方式，如下图所示，

机器学习 - regularization
蓝色区域是L1-norm的等高线，为了方便考虑，我们现在假设Empirical Risk的等高线图为正圆，那么只要 $\hat\beta$ 在黄色区域的时候，交点就会出现在坐标轴上，所以可以发现L1有较大的几率出现sparsity的可能。

参考资料：NYU 《Deep Learning》 2020

机器学习 - regularization

相关推荐