林轩田机器学习基石课程个人笔记-第十四讲

上一讲学习了有关过拟合的内容,最后留下两个有关避免过拟合出现的方法没有讲,这一讲学习其中一个regularization,即正则化
林轩田机器学习基石课程个人笔记-第十四讲
如右图所示,蓝色的线使目标函数,红色的线是我们想要用来拟合数据的一个高阶的多项式,虽然拟合效果很好,Ein很小,但是Eout却很大,显然是过拟合了,那么使用什么办法可以使它逐步的接近于理想中的蓝线呢?一种很常用的也是很有效的方法就是regularization,如左图所示,经过正则化处理,红色的线显然更加接近蓝色的线
林轩田机器学习基石课程个人笔记-第十四讲
而正则化后的线是一个低阶的多项式,即发生了从高阶到低阶的回退,结合之前学习的内容可以得到如下的图,高阶的假设包含低阶假设的所有项,那么我们就可以将高阶的假设加上一些限制条件,来达到和低阶假设近似的效果,这种函数的近似称为ill-posed problems
林轩田机器学习基石课程个人笔记-第十四讲

那么如何来完成这种近似呢?或者说如何完成这种回退式的修正呢?高阶多项式解决就是经过线性转换到新的域中,再利用线性回归来解决问题,得到w
林轩田机器学习基石课程个人笔记-第十四讲
再观察H2和H10的表达式我们可以发现,可以把它们看成是一样的,只不过H2表达式的w3=w4=…=w10=0,即为了防止过拟合的出现,我们将高阶多项式的部分权重加以限制,完成这种回退。那么既然H2可以解决的问题为什么不直接使用H2,而要进行这种操作呢?这样做是为了在解决更加复杂的问题时提供一种思路
林轩田机器学习基石课程个人笔记-第十四讲

在H10中我们的问题是在一个11度的空间中,目标是求出最小的Ein(w),如左半图所示,那么根据上面的讨论可以将其转换成右半图所示鄂有限制的H2的形式,目标是一样的,只不过加了些限制条件
林轩田机器学习基石课程个人笔记-第十四讲
上面所加的限制条件是w3=w4=…=w10=0,那么可以将其转换成同等意义的形式如下所示,将其记为H2’,即要求w矩阵中的不等于0的元素不超过三个,并不指定是高阶的w必须为0
林轩田机器学习基石课程个人笔记-第十四讲
这样做的结果是相对H2我们放宽了对于假设的限制,但仍然比H10有更大的机会来避免过拟合现象的发生。但是有一个不好的消息就是H2’的求解是一个NP-hard问题,并不容易计算
林轩田机器学习基石课程个人笔记-第十四讲
既然这个形式不好计算,我们就再寻求改变,将其转换成下图右半图部分的限制更加宽松的形式,让所有的权重w的平方和不超过一个数C,将其记作H©,在新的限制条件下求解最小的Ein(w)
林轩田机器学习基石课程个人笔记-第十四讲
其中H( c)和H2’的关系是:它们之间有重叠,有交集的部分,但是没有完全包含的关系,也不一定相等。H©中C值越大,限定的范围越大,即越宽松,但仍然可可能避免过拟合出现。但当C无穷大时,即不加任何的限制求解,这时就和H10是一样的效果。这里把H( c)称为regularized hypothesis set,这种形式的限定条件是可以进行求解的,我们把求解的满足限定条件的权重w记为WREG
林轩田机器学习基石课程个人笔记-第十四讲

经过上面的一系列操作,我们的问题就转换成了下面的形式,再将其中的某些部分做等价的替换,然后求解。这时的限制条件是||w^2||<=C。从几何上来看就是将满足结果的所有的w限制在了一个球心在原点,半径为根号下C的圆内。那么如何来解这个受限的优化问题呢?
林轩田机器学习基石课程个人笔记-第十四讲
我们的表达式如下所示

林轩田机器学习基石课程个人笔记-第十四讲
接下来在2维平面上通过看图来分析一下这个问题,如下图所示,假设在空间中的一点w,根据梯度下降算法,w会朝着下降最快的方向移动,也就是梯度的反方向(蓝色箭头指示的方向)。如果不加任何的限制,w一定最终会取得最小值Wlin,到达“谷底”的位置。但是限制求解有限制条件,即所有的w被限制在半径为根号C的圆内(图中为红色的圆),w最远只能到圆的边上。那么这种情况下,W最远只能沿着圆的切线方向移动(图中绿色箭头指示的方向),来尽量的逼近Wlin。与绿色向量垂直的向量(红色箭头指示的方向)是圆切线的法向量,即w的方向,w不能靠近红色箭头方向移动。那么随着迭代优化过程,只要-▽Ein与w点切线方向不垂直,那么根据向量知识, 一定在w点切线方向上有不为零的分量,即w点会继续移动。只有当-▽Ein与绿色切线垂直,即与红色法向量平行的时候, 在切线方向上没有不为零的分量了,也就表示这时w达到了它能到达的最接近Wlin的位置,这时的w就是WREG
林轩田机器学习基石课程个人笔记-第十四讲
这样我们就可以通过求解下面的方程来得到结果,其中公式中的λ称为Lagrange multiplier,是用来解有条件的最佳化问题常用的数学工具,常数2/N部分是为了方便推导
林轩田机器学习基石课程个人笔记-第十四讲

如果λ是一个已知的数,带入之前的线性回归Ein表达式就可以得到下图的第二个公式,经过求解可以得到WREG如下所示
林轩田机器学习基石课程个人笔记-第十四讲
如果对于更一般的情况,例如Logistic Regression问题中, ▽Ein不是线性的,那么将其代入平行条件中得到的就不是一个线性方程式, 不易求解。下面我们从另一个角度来看一下平行等式:已知 ▽Ein是对WREG的导数,而2λ/NWREG也可以看成是λ/NWREG^2的导数。那么平行等式左边可以看成一个函数的导数,导数为零,即求该函数的最小值。也就是说,问题转换为最小化该函数,即第二个表达式。该函数中第二项就是限定条件regularizer,也称为weight-decay regularization。我们把这个函数称为Augmented Error,即Eavg(w)。如果λ不为零,对应于加上了限定条件,若等于零,则对应于没有任何限定条件,问题转换成之前的最小化Ein(w)。
林轩田机器学习基石课程个人笔记-第十四讲
下面给出有关不同的λ曲线拟合的情况,可见当λ=0时是过拟合;当λ=0.001时,拟合的效果接近理想,后面随着λ的增大,反而发生了欠拟合。
林轩田机器学习基石课程个人笔记-第十四讲
把λ看成是一种对于h复杂度的惩罚,λ 越大,w就越小,对应于C值越小,即这种惩罚越大,拟合曲线就会越平滑,高阶项就会削弱,容易发生欠拟合。一般λ取比较小的值就能达到良好的拟合效果,过大过小都有问题,但究竟取什么值,要根据具体训练数据和模型进行分析与调试。
林轩田机器学习基石课程个人笔记-第十四讲
事实上,这种regularization不仅可以用在多项式的hypothesis中,还可以应用在logistic regression等其他hypothesis中,都可以达到防止过拟合的效果。我们目前讨论的多项式是形如x^n 的形式,若x的范围限定在[1,1]之间,那么可能导致x^n相对于低阶的值要小得多,则其对于的w非常大,相当于要给高阶项设置很大的惩罚。为了避免出现这种数据大小差别很大的情况,可以使用Legendre Polynomials代替x^n这种形式,Legendre Polynomials各项之间是正交的,用它进行多项式拟合的效果更好
林轩田机器学习基石课程个人笔记-第十四讲

然后再来看一下正则化和VC Dimension的关系,左面两个式子的关系上面已经讨论过了,有关VC的式子,可以将Eout(w)和Ein(w)之间的关系看成如图所示的形式,它小于等于Ein(w)加一个有关H( c)的复杂度项
林轩田机器学习基石课程个人笔记-第十四讲
所以根据Augmented Error和VC Bound的表达式, Ω(w)包含于 Ω(H)之内,所以,Eavg(w) 比Ein更接近于Eout,即更好地代表Eout、Eavg(w) 与Eout之间的误差更小。
林轩田机器学习基石课程个人笔记-第十四讲
根据VC Dimension理论,整个hypothesis set的dvc=d+1,这是因为所有的w都考虑了,没有任何限制条件。而引入限定条件的dvc(H( c))=dFFF(H,A),即有效的VC dimension。也就是说dvc(H) 比较大,因为它代表了整个hypothesis set,但是dFFF(H,A)比较小,因为由于regularized的影响,限定了w只取一小部分。其中A表示regularized算法。当λ>0时有:dFFF(H,A)≤dvc。

这些与实际情况是相符的,比如对多项式拟合模型,当λ=0时,所有的w都给予考虑,相应的dvc很大,容易发生过拟合。当λ>0且越来越大时,很多w将被舍弃,dFFF(H,A)减小,拟合曲线越来越平滑,容易发生欠拟合。
林轩田机器学习基石课程个人笔记-第十四讲

那么通用的Regularizers,即Ω(w)应该选择什么样的形式呢?一般地,我们会朝着目标函数的方向进行选取。有三种方式:
• targetdependent
• plausible
• Friendly
林轩田机器学习基石课程个人笔记-第十四讲
其实这三种方法跟之前error measure类似,其也有三种方法:
• userdependent
• plausible
• friendly
regularizer与error measure是机器学习模型设计中的重要步骤
林轩田机器学习基石课程个人笔记-第十四讲
接下来,介绍两种Regularizer:L2和L1。L2 Regularizer一般比较通用,其形式如下:
林轩田机器学习基石课程个人笔记-第十四讲
这种形式的regularizer计算的是w的平方和,是凸函数,比较平滑,易于微分,容易进
行最优化计算。L1 Regularizer的表达式如下:
林轩田机器学习基石课程个人笔记-第十四讲
L1计算的不是w的平方和,而是绝对值和,即长度和,也是凸函数。已知wTw=C围成的是圆形,而||w||=C围成的是正方形,那么在正方形的四个顶点处,是不可微分的(不像圆形,处处可微分)。根据之前介绍的平行等式推导过程,对应这种正方形,它的解大都位于四个顶点处,因为正方形边界处的w绝对值都不为零,若-▽Ein不与其平行,那么w就会向顶点处移动,顶点处的许多w分量为零,所以,L1 Regularizer的解是稀疏的,称为sparsity。优点是计算速度快。
林轩田机器学习基石课程个人笔记-第十四讲
下面来λ看一下如何取值,首先,若stochastic noise不同,那么一般情况下, λ取值有如下特点:从图中可以看出,stochastic noise越大, 越λ大。另一种情况,不同的deterministic noise, λ取值有如下特点:从图中可以看出,deterministic noise越大, λ越大。以上两种noise的情况下,都是noise越大,相应的λ也就越大。这也很好理解,如果在
开车的情况下,路况也不好,即noise越多,那么就越会踩刹车,这里踩刹车指的就是regularization。但是大多数情况下,noise是不可知的,这种情况下如何选择λ?
林轩田机器学习基石课程个人笔记-第十四讲
这一讲主要介绍了正则化。首先,原来的hypothesis set加上一些限制条件,就成了Regularized Hypothesis Set。加上限制条件之后,我们就可以把问题转化为最小化问题,即把w的平方加进去。这种过程,实际上回降低VC Dimension。最后,介绍regularization是通用的机器学习工具,设计方法通常包括target dependent,plausible,friendly等等。
林轩田机器学习基石课程个人笔记-第十四讲

其实这一讲听的不是很太懂,所以笔记主要还是其他人的总结第十四讲,留下来看一看,如果大家写了更清楚地,可以评论里留下连接!