林轩田机器学习基石课程个人笔记-第十四讲

上一讲学习了有关过拟合的内容，最后留下两个有关避免过拟合出现的方法没有讲，这一讲学习其中一个regularization，即正则化
林轩田机器学习基石课程个人笔记-第十四讲
如右图所示，蓝色的线使目标函数，红色的线是我们想要用来拟合数据的一个高阶的多项式，虽然拟合效果很好，Ein很小，但是Eout却很大，显然是过拟合了，那么使用什么办法可以使它逐步的接近于理想中的蓝线呢？一种很常用的也是很有效的方法就是regularization，如左图所示，经过正则化处理，红色的线显然更加接近蓝色的线
林轩田机器学习基石课程个人笔记-第十四讲
而正则化后的线是一个低阶的多项式，即发生了从高阶到低阶的回退，结合之前学习的内容可以得到如下的图，高阶的假设包含低阶假设的所有项，那么我们就可以将高阶的假设加上一些限制条件，来达到和低阶假设近似的效果，这种函数的近似称为ill-posed problems
林轩田机器学习基石课程个人笔记-第十四讲

那么如何来完成这种近似呢？或者说如何完成这种回退式的修正呢？高阶多项式解决就是经过线性转换到新的域中，再利用线性回归来解决问题，得到w
林轩田机器学习基石课程个人笔记-第十四讲
再观察H2和H10的表达式我们可以发现，可以把它们看成是一样的，只不过H2表达式的w3=w4=…=w10=0，即为了防止过拟合的出现，我们将高阶多项式的部分权重加以限制，完成这种回退。那么既然H2可以解决的问题为什么不直接使用H2，而要进行这种操作呢？这样做是为了在解决更加复杂的问题时提供一种思路
林轩田机器学习基石课程个人笔记-第十四讲

在H10中我们的问题是在一个11度的空间中，目标是求出最小的Ein(w)，如左半图所示，那么根据上面的讨论可以将其转换成右半图所示鄂有限制的H2的形式，目标是一样的，只不过加了些限制条件
林轩田机器学习基石课程个人笔记-第十四讲
上面所加的限制条件是w3=w4=…=w10=0，那么可以将其转换成同等意义的形式如下所示，将其记为H2’，即要求w矩阵中的不等于0的元素不超过三个，并不指定是高阶的w必须为0

这样做的结果是相对H2我们放宽了对于假设的限制，但仍然比H10有更大的机会来避免过拟合现象的发生。但是有一个不好的消息就是H2’的求解是一个NP-hard问题，并不容易计算
林轩田机器学习基石课程个人笔记-第十四讲
既然这个形式不好计算，我们就再寻求改变，将其转换成下图右半图部分的限制更加宽松的形式，让所有的权重w的平方和不超过一个数C,将其记作H©，在新的限制条件下求解最小的Ein(w)
林轩田机器学习基石课程个人笔记-第十四讲
其中H( c)和H2’的关系是：它们之间有重叠，有交集的部分，但是没有完全包含的关系，也不一定相等。H©中C值越大，限定的范围越大，即越宽松，但仍然可可能避免过拟合出现。但当C无穷大时，即不加任何的限制求解，这时就和H10是一样的效果。这里把H( c)称为regularized hypothesis set，这种形式的限定条件是可以进行求解的，我们把求解的满足限定条件的权重w记为WREG
林轩田机器学习基石课程个人笔记-第十四讲

经过上面的一系列操作，我们的问题就转换成了下面的形式，再将其中的某些部分做等价的替换，然后求解。这时的限制条件是||w^2||<=C。从几何上来看就是将满足结果的所有的w限制在了一个球心在原点，半径为根号下C的圆内。那么如何来解这个受限的优化问题呢？
林轩田机器学习基石课程个人笔记-第十四讲
我们的表达式如下所示

林轩田机器学习基石课程个人笔记-第十四讲
接下来在2维平面上通过看图来分析一下这个问题，如下图所示，假设在空间中的一点w，根据梯度下降算法，w会朝着下降最快的方向移动，也就是梯度的反方向（蓝色箭头指示的方向）。如果不加任何的限制，w一定最终会取得最小值Wlin，到达“谷底”的位置。但是限制求解有限制条件，即所有的w被限制在半径为根号C的圆内（图中为红色的圆），w最远只能到圆的边上。那么这种情况下，W最远只能沿着圆的切线方向移动（图中绿色箭头指示的方向），来尽量的逼近Wlin。与绿色向量垂直的向量（红色箭头指示的方向）是圆切线的法向量，即w的方向，w不能靠近红色箭头方向移动。那么随着迭代优化过程，只要-▽Ein与w点切线方向不垂直，那么根据向量知识，一定在w点切线方向上有不为零的分量，即w点会继续移动。只有当-▽Ein与绿色切线垂直，即与红色法向量平行的时候，在切线方向上没有不为零的分量了，也就表示这时w达到了它能到达的最接近Wlin的位置，这时的w就是WREG
林轩田机器学习基石课程个人笔记-第十四讲
这样我们就可以通过求解下面的方程来得到结果，其中公式中的λ称为Lagrange multiplier，是用来解有条件的最佳化问题常用的数学工具，常数2/N部分是为了方便推导

如果λ是一个已知的数，带入之前的线性回归Ein表达式就可以得到下图的第二个公式，经过求解可以得到WREG如下所示
林轩田机器学习基石课程个人笔记-第十四讲
如果对于更一般的情况，例如Logistic Regression问题中， ▽Ein不是线性的，那么将其代入平行条件中得到的就不是一个线性方程式，不易求解。下面我们从另一个角度来看一下平行等式：已知 ▽Ein是对WREG的导数，而2λ/NWREG也可以看成是λ/NWREG^2的导数。那么平行等式左边可以看成一个函数的导数，导数为零，即求该函数的最小值。也就是说，问题转换为最小化该函数，即第二个表达式。该函数中第二项就是限定条件regularizer，也称为weight-decay regularization。我们把这个函数称为Augmented Error，即Eavg(w)。如果λ不为零，对应于加上了限定条件，若等于零，则对应于没有任何限定条件，问题转换成之前的最小化Ein(w)。
林轩田机器学习基石课程个人笔记-第十四讲
下面给出有关不同的λ曲线拟合的情况，可见当λ=0时是过拟合；当λ=0.001时，拟合的效果接近理想，后面随着λ的增大，反而发生了欠拟合。

把λ看成是一种对于h复杂度的惩罚，λ 越大，w就越小，对应于C值越小，即这种惩罚越大，拟合曲线就会越平滑，高阶项就会削弱，容易发生欠拟合。一般λ取比较小的值就能达到良好的拟合效果，过大过小都有问题，但究竟取什么值，要根据具体训练数据和模型进行分析与调试。
林轩田机器学习基石课程个人笔记-第十四讲
事实上，这种regularization不仅可以用在多项式的hypothesis中，还可以应用在logistic regression等其他hypothesis中，都可以达到防止过拟合的效果。我们目前讨论的多项式是形如x^n 的形式，若x的范围限定在[1,1]之间，那么可能导致x^n相对于低阶的值要小得多，则其对于的w非常大，相当于要给高阶项设置很大的惩罚。为了避免出现这种数据大小差别很大的情况，可以使用Legendre Polynomials代替x^n这种形式，Legendre Polynomials各项之间是正交的，用它进行多项式拟合的效果更好
林轩田机器学习基石课程个人笔记-第十四讲

然后再来看一下正则化和VC Dimension的关系，左面两个式子的关系上面已经讨论过了，有关VC的式子，可以将Eout(w)和Ein(w)之间的关系看成如图所示的形式，它小于等于Ein(w)加一个有关H( c)的复杂度项
林轩田机器学习基石课程个人笔记-第十四讲
所以根据Augmented Error和VC Bound的表达式， Ω(w)包含于 Ω(H)之内，所以，Eavg(w) 比Ein更接近于Eout，即更好地代表Eout、Eavg(w) 与Eout之间的误差更小。

根据VC Dimension理论，整个hypothesis set的dvc=d+1，这是因为所有的w都考虑了，没有任何限制条件。而引入限定条件的dvc(H( c))=dFFF(H,A)，即有效的VC dimension。也就是说dvc(H) 比较大，因为它代表了整个hypothesis set，但是dFFF(H,A)比较小，因为由于regularized的影响，限定了w只取一小部分。其中A表示regularized算法。当λ>0时有：dFFF(H,A)≤dvc。

这些与实际情况是相符的，比如对多项式拟合模型，当λ=0时，所有的w都给予考虑，相应的dvc很大，容易发生过拟合。当λ>0且越来越大时，很多w将被舍弃，dFFF(H,A)减小，拟合曲线越来越平滑，容易发生欠拟合。
林轩田机器学习基石课程个人笔记-第十四讲

那么通用的Regularizers，即Ω(w)应该选择什么样的形式呢？一般地，我们会朝着目标函数的方向进行选取。有三种方式：
• targetdependent
• plausible
• Friendly
林轩田机器学习基石课程个人笔记-第十四讲
其实这三种方法跟之前error measure类似，其也有三种方法：
• userdependent
• plausible
• friendly
regularizer与error measure是机器学习模型设计中的重要步骤

接下来，介绍两种Regularizer：L2和L1。L2 Regularizer一般比较通用，其形式如下：
林轩田机器学习基石课程个人笔记-第十四讲
这种形式的regularizer计算的是w的平方和，是凸函数，比较平滑，易于微分，容易进
行最优化计算。L1 Regularizer的表达式如下：

L1计算的不是w的平方和，而是绝对值和，即长度和，也是凸函数。已知wTw=C围成的是圆形，而||w||=C围成的是正方形，那么在正方形的四个顶点处，是不可微分的（不像圆形，处处可微分）。根据之前介绍的平行等式推导过程，对应这种正方形，它的解大都位于四个顶点处，因为正方形边界处的w绝对值都不为零，若-▽Ein不与其平行，那么w就会向顶点处移动，顶点处的许多w分量为零，所以，L1 Regularizer的解是稀疏的，称为sparsity。优点是计算速度快。
林轩田机器学习基石课程个人笔记-第十四讲
下面来λ看一下如何取值，首先，若stochastic noise不同，那么一般情况下， λ取值有如下特点：从图中可以看出，stochastic noise越大，越λ大。另一种情况，不同的deterministic noise， λ取值有如下特点：从图中可以看出，deterministic noise越大， λ越大。以上两种noise的情况下，都是noise越大，相应的λ也就越大。这也很好理解，如果在
开车的情况下，路况也不好，即noise越多，那么就越会踩刹车，这里踩刹车指的就是regularization。但是大多数情况下，noise是不可知的，这种情况下如何选择λ？
林轩田机器学习基石课程个人笔记-第十四讲
这一讲主要介绍了正则化。首先，原来的hypothesis set加上一些限制条件，就成了Regularized Hypothesis Set。加上限制条件之后，我们就可以把问题转化为最小化问题，即把w的平方加进去。这种过程，实际上回降低VC Dimension。最后，介绍regularization是通用的机器学习工具，设计方法通常包括target dependent，plausible，friendly等等。
林轩田机器学习基石课程个人笔记-第十四讲

其实这一讲听的不是很太懂，所以笔记主要还是其他人的总结第十四讲，留下来看一看，如果大家写了更清楚地，可以评论里留下连接！

林轩田机器学习基石课程个人笔记-第十四讲

相关推荐