线性回归
内容来源:B站 up:shuhuai008
主要内容
- 最小二乘(矩阵表达,几何意义)
- 概率角度:最小二乘法等价于噪声为高斯分布的最大似然估计
- 正则化:L1——Lasso;L2——Ridge岭回归
最小二乘(矩阵表达,几何意义)
最小二乘估计结果:参数W=(X⊤X)−1X⊤Y.
几何意义:
-
f(X)=W⊤X——将每个误差平均分散在每个样本上
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0AZY6LSy-1596529263815)(E:\document\编程\java\最小二乘几何解释1.png)]
-
f(X)=X⊤W——将每个误差平均分散在每个维度上。最佳的估计就是Yn∗1在样本空间上的投影。因此X⊤(Y−X⊤W)=0n∗1,同样可以解得最小二成的解。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HFtrrEfv-1596529263819)(E:\document\编程\java\最小二乘几何解释2.png)]
概率视角
最小二乘法等价于噪声为高斯分布的最大似然估计(假定噪声的分布之后按照定义写损失函数推到即可)
正则化
通常情况下样本数目应远远大于样本的维度。实际上不是如此,则可能过拟合。解决方法:
- 增加样本;
- 特征选择或者特征提取(降维);
- 正则化(对目标函数增加约束);
-
记损失函数为L(W),P(W)为惩罚项,则正则化的目标为
argminWL(W)+λP(W)
线性回归引入两种正则化:
-
L1——Lasso,P(W)=∣∣W∣∣1
-
L2——Ridge岭回归(权值衰减),P(W)=∣∣W∣∣22=W⊤W.
-
对于岭回归,通过和最小二乘相同的推导步骤可得参数的估计为:
W=(X⊤X+λI)−1X⊤Y
-
从贝叶斯角度看待:
假定先验分布为w∼N(0,σ02)
目标计算后验概率:p(w∣y)=p(y)p(y∣w)⋅p(w)
MAP(最大后验概率估计):
w^=argwmaxp(w∣y)=argwmaxp(y∣w)⋅p(w)
由模型的基本假设:
f(w)=w⊤xy=f(m)+ε=w⊤x+εε∼N(0,σ2)y∣x;w∼N(w⊤x,σ2)
因此$ p(y \mid w) , p(w)$都可以写出具体形式,按照MAP定义将继续写则可以推得
w^=argwmaxp(w∣y)=argwmaxp(y∣w)⋅p(w)=argwmin(Y−W⊤X)2+σ02σ2∣∣W∣∣22
也就是说MAP等价于惩罚因子为σ02σ2的岭回归。
总结:
- LSE(最小二乘估计)等价于噪声为高斯的MLE
- 惩罚LSE(岭回归) 等价于先验分布和噪声都是高斯分布的MAP
为什么 lasso 更容易使部分权重变为 0 而 ridge 不行?????

图中的坐标系表示W的为两维的情况,一圈又一圈的椭圆表示函数 J=n1∑i=1n(w⊤xi+b−yi)2的等高线,椭圆越往外,J 的值越大,w∗表示使得损失 J取得全局最优的值。使用 Gradient descent,也就是让 w向着w∗的位置走。如果没有 L1 或者 L2 正则化约束,w∗ 是可以被取到的。但是,由于有了约束 ∣∣w∣∣1<t或 ∣∣w∣∣22<t,w 的取值只能限制在图中灰色方形和圆形区域。当然调整 t 的值,我们能够扩大这两个区域。
等高线从低到高第一次和 w的取值范围相切的点,即是 lasso 和 ridge 回归想要找的权重 w^。
lasso 限制了 w 的取值范围为有棱角的方形,而 ridge 限制了 w 的取值范围为圆形,等高线和方形区域的切点更有可能在坐标轴上,而等高线和圆形区域的切点在坐标轴上的概率很小。这就是为什么 lasso(L1 正则化)更容易使得部分权重取 0,使权重变稀疏;而 ridge(L2 正则化)只能使权重接近 0,很少等于 0。
区域的切点在坐标轴上的概率很小。这就是为什么 lasso(L1 正则化)更容易使得部分权重取 0,使权重变稀疏;而 ridge(L2 正则化)只能使权重接近 0,很少等于 0。**
正是由于 lasso 容易使得部分权重取 0,所以可以用其做 feature selection,lasso 的名字就指出了它是一个 selection operator。权重为 0 的 feature 对回归问题没有贡献,直接去掉权重为 0 的 feature,模型的输出值不变。对于 ridge regression 进行 feature selection,你说它完全不可以吧也不是,weight 趋近于 0 的 feature 不要了不也可以,但是对模型的效果还是有损伤的,这个前提还得是 feature 进行了归一化。