机器学习基石-Regularization
大纲
Regularized Hypothesis Set
1 Regularization
- 我们做regularization的目的就是从高维的假设空间倒退回低维的假设空间
2 Stepping Back as Constraint
我们从高维到低维倒退,可以将高阶部分的权重置为0,这样相当于在原假设的基础上加上了约束
3 Regression with Looser Constraint
刚刚我们讨论的限制是H10高阶部分的权重w限制为0,这是比较苛刻的一种限制。下面,我们把这个限制条件变得更宽松一点,即令任意8个权重w为0,并不非要限定
也就只是限定了w不为0的个数,并不限定必须是高阶的w。这种hypothesis记为
more flexible than
H2 less risky than
H10
对于这种sparse hypothesis set的约束问题求解,是一种NP难问题
4 Regression with Softer Constraint
我们进一步放松约束条件,也就是说,所有的权重w的平方和的大小不超过C,我们把这种hypothesis sets记为H(C)
-
H(C) 和H′2 有交集,但不精确相等 - 当
C≥0 时,限定的范围越大,越宽松H(0)∈H(1.126)∈......∈H(1126)∈...∈H(∞)=H10
当C无限大的时候,即限定条件非常宽松,相当于没有加上任何限制,就与H10没有什么两样。H(C)称为regularized hypothesis set,这种形式的限定条件是可以进行求解的,我们把求解的满足限定条件的权重w记为
Weight Decay Regularization
1 Matrix Form of Regularized Regression Problem
2 The Lagrange Multiplier
下图描述了如何引入拉格朗日乘子
如上图所示,假设在空间中的一点w,根据梯度下降算法,w会朝着
随意我们可以导出最优解满足的性质
其中
3 Augment Error
现在假设是线性回归的情况,我们可以把线性回归的
当
进一步,导出最优解为
我们注意到
对于一般的假设,
已知
我们把这个函数称之为Augment Error
4 Result
λ 过大过小都不合适,λ 需要根据具体的数据进行交叉验证得到λ 大的时候,对应限制条件C 比较小,倾向于选择简单的模型
事实上,这种regularization不仅可以用在多项式的hypothesis中,还可以应用在logistic regression等其他hypothesis中,都可以达到防止过拟合的效果。
Regularization and VC Theory
1 Another View of Augmented Error
Augmented Error
其中
VC Bound
其中
2 Effective VC Dimension
根据VC Dimension理论,整个hypothesis set的
General Regularizers
1 General Regularizers
- L2 Regularizers
- L1 Regularizers
2 The Optimal λ
从上图我们可以看出,噪声越大,所需要的