机器学习基石(林轩田)第十四章 笔记与感悟总结

14.1 Regularization - Regularized Hypothesis Set

机器学习基石(林轩田)第十四章 笔记与感悟总结


我们可以看出,右侧的数据拟合的并不好,因为我们用来拟合的方程维数太高!!!

我们想让右侧的overfit 变成左侧的看起来不错的 ‘regularized fit’

我们想从高次的H慢慢回退到低次的Hypothesis、

命名的历史是:当有限的数据点可以用多个方程来进行拟合时,我们需要选择最合适的那个。

弹幕:穿过样本点的函数特别多,regularization就是从这些函数中找出比较好的

机器学习基石(林轩田)第十四章 笔记与感悟总结

我们看出了将高次的w置为0,则变成了低维的

机器学习基石(林轩田)第十四章 笔记与感悟总结


我们依旧可以从10次多项式中寻找w,但是最后要求高维的w满足限制条件(等于0)

那么为什么我们不直接从(2+1)维的w中寻找,而偏偏要这么的麻烦呢?

答:我们希望能够拓宽自己的视野,让我们在推导后面的问题容易一些。

机器学习基石(林轩田)第十四章 笔记与感悟总结


现在我们放松一点条件,变成只要至少有8个的wq=0便可以。

我们发现机器学习基石(林轩田)第十四章 笔记与感悟总结变成了介于H2与H10之间的一种选项。

我们称机器学习基石(林轩田)第十四章 笔记与感悟总结是稀疏的(sparse)假设集。

机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结这让我们想到了PLA中的是非题,此类是非题是一个NP-hard难题。


我们为了避免NP-hard难题,于是我们再做一步转换。

我们将是非的多少项之和,转变成了系数平方之和小于某个常数的问题

当C趋于无限大的时候,其实就跟没有限制条件一样,就和10个系数的时候一样了(H10)

我们把H(C)的这种形式,叫做规则化的hypothesis,即在规则和条件约束下的hypothesis,得到的权重叫做机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结


14.2 Regularization - Weight Decay Regularization

我们将新的问题表示成向量和矩阵的形式。

w的数学意义是一个球,球心在原点,而球的半径小于机器学习基石(林轩田)第十四章 笔记与感悟总结。我们只要这个球里面的w,而外面的都不要。这个“球”是高维空间上的“球”。

机器学习基石(林轩田)第十四章 笔记与感悟总结

我们没有条件时,只要找到谷底的方向滚下去就好。

例如Wlin是谷底,我们会朝着这个方向滚下去。

然而我们现在有了条件显示,是一个“球”。只有在红色圈圈内的才是我们的最后解。

假如说,我们已经在了“球”的边边上,那么我们怎么判断是不是已经到最优点了?


球的法向量,告诉我们不能往外走。

而绿色的箭头,则表明是可以继续往下滚的方向。它满足我们的要求。

那么当我们到达了一个可能的解时(at optimal solution),它梯度的反方向和我们的机器学习基石(林轩田)第十四章 笔记与感悟总结方向是平行的。

我们就设平行为已知,得到一个方程。

机器学习基石(林轩田)第十四章 笔记与感悟总结的方法叫做Lagrange multiplier  拉格朗日乘子法。用来解有条件约束的问题。

机器学习基石(林轩田)第十四章 笔记与感悟总结

感觉好像变得更复杂了,原本求一个机器学习基石(林轩田)第十四章 笔记与感悟总结,现在变成了既要求机器学习基石(林轩田)第十四章 笔记与感悟总结,有要求机器学习基石(林轩田)第十四章 笔记与感悟总结了。

假设有个很神的同学(oracle 先知)告诉你机器学习基石(林轩田)第十四章 笔记与感悟总结是多少,我们就很容易求机器学习基石(林轩田)第十四章 笔记与感悟总结是多少了

很容易证明,只要机器学习基石(林轩田)第十四章 笔记与感悟总结>0,我们的机器学习基石(林轩田)第十四章 笔记与感悟总结是存在的(正定的)。

机器学习基石(林轩田)第十四章 笔记与感悟总结


我们对这个梯度+2机器学习基石(林轩田)第十四章 笔记与感悟总结/N * 机器学习基石(林轩田)第十四章 笔记与感悟总结的式子进行左右积分,等价于变成    最小化这个积分后的式子、

我们把这个式子叫做机器学习基石(林轩田)第十四章 笔记与感悟总结,其式子里面没有constraint

机器学习基石(林轩田)第十四章 笔记与感悟总结


机器学习基石(林轩田)第十四章 笔记与感悟总结=0的时候就会发生Overfitting,而机器学习基石(林轩田)第十四章 笔记与感悟总结很大的时候就无法描述了。

哲学:一小点regularization就能有很多的效果。

 我们设置的机器学习基石(林轩田)第十四章 笔记与感悟总结越大,说明我们希望的w越小越好。因为我们是在求解最小化的问题。

机器学习基石(林轩田)第十四章 笔记与感悟总结很大,相当于是在惩罚w,就相当于是要较小的C。(小半径)

我们常常称之为weight-decay regularization,即把权重变小的一种方法。

机器学习基石(林轩田)第十四章 笔记与感悟总结


我们使用了一点小技巧。polynomial transform有小缺点。即当x在[-1,1]之间的时候,当x的维数很高的时候,它就很小,我们如果仍想让这个高维x在最后具有影响力,那么对应的w就得非常非常大。

我们就好像是在过度惩罚了高维度的x。

我们使用了坐标转换,q+1个坐标,但是因为彼此之间不是垂直的,我们做regularization就除了一些问题。

我们的想法是在高维空间上找出一组垂直的基底。

这些基底叫做Legendre polynomials

我们列出了前五个legendre polynomials

机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结

14.3 Regularization - Regularization and VC Theory

我们原本是做个有限制的最小化的问题。

机器学习基石(林轩田)第十四章 笔记与感悟总结机器学习基石(林轩田)第十四章 笔记与感悟总结我们间接的把VC Bound做好

机器学习基石(林轩田)第十四章 笔记与感悟总结因为C和机器学习基石(林轩田)第十四章 笔记与感悟总结等价的缘故,

机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结当我们最小化Eaug的时候,间接的使用VC Bound


回头来看Augmented Error 和 VC Bound其实有一些相似和不一样的地方。

机器学习基石(林轩田)第十四章 笔记与感悟总结表示w这条曲线本身到底有多么的复杂,单一的hypothesis有多么的复杂。

机器学习基石(林轩田)第十四章 笔记与感悟总结表示整个hypothesis set有多复杂。

如果前者与后者的复杂度十分相近的话,比如说,最高项的系数和Hypothesis集里的最高项有点联系的话。也许,我们做好机器学习基石(林轩田)第十四章 笔记与感悟总结的想法,可以通过做好机器学习基石(林轩田)第十四章 笔记与感悟总结解决。即,做好机器学习基石(林轩田)第十四章 笔记与感悟总结,能够做好机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结

理论上,我们要用机器学习基石(林轩田)第十四章 笔记与感悟总结的代价,

但是实际上我们只考虑在C里面的那些谷底的人,即机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结我们prefer那些w比较短的方式。

regularization可能会使实际代价的小一些。但是这跟A(演算法)有关。

机器学习基石(林轩田)第十四章 笔记与感悟总结


14.4 Regularization - General Regularization

最好告诉我们说好的hypothesis在哪一个方向。告诉我们一个比较小的范围。

比如,我们知道目标函数是偶数次方的,我们就可以想办法在regularization的过程中,将奇数次方前面的系数调小一些。

或者选择比较有说服力的,能够使函数变得平滑一些的函数。

或者是容易能够optimize的方式。

但是如果选择了坏的regularization,那么还有最后的保护,即机器学习基石(林轩田)第十四章 笔记与感悟总结=0,大不了不regularization了。

机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结

L1最后的最优点往往在顶点上。sparse solution 只要算不是0的那几项,因此会比较快。

比如有个1126个维度的模型,用L1只需要算几个,因此会比较快。

机器学习基石(林轩田)第十四章 笔记与感悟总结


机器学习基石(林轩田)第十四章 笔记与感悟总结其实是用来踩刹车的那种方法。因此,如果噪声很多的话,就需要更大的机器学习基石(林轩田)第十四章 笔记与感悟总结

因为路况越不好,我们就需要踩更多刹车。

因为我们拿到样本时,其实并不知道noise是多少。因此我们需要做一个合适的机器学习基石(林轩田)第十四章 笔记与感悟总结的估计。

机器学习基石(林轩田)第十四章 笔记与感悟总结

机器学习基石(林轩田)第十四章 笔记与感悟总结