3-线性回归

线性回归

内容来源:B站 up:shuhuai008

主要内容

  • 最小二乘(矩阵表达,几何意义)
  • 概率角度:最小二乘法等价于噪声为高斯分布的最大似然估计
  • 正则化:L1L_{1}——Lasso;L2L_{2}——Ridge岭回归

最小二乘(矩阵表达,几何意义)

最小二乘估计结果:参数W=(XX)1XYW=(X^{\top}X)^{-1}X^{\top}Y.

几何意义:

  • f(X)=WXf(X)=W^{\top}X——将每个误差平均分散在每个样本上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0AZY6LSy-1596529263815)(E:\document\编程\java\最小二乘几何解释1.png)]

  • f(X)=XWf(X)=X^{\top}W——将每个误差平均分散在每个维度上。最佳的估计就是Yn1Y_{n*1}在样本空间上的投影。因此X(YXW)=0n1X^{\top}(Y-X^{\top}W)=0_{n*1},同样可以解得最小二成的解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HFtrrEfv-1596529263819)(E:\document\编程\java\最小二乘几何解释2.png)]

概率视角

最小二乘法等价于噪声为高斯分布的最大似然估计(假定噪声的分布之后按照定义写损失函数推到即可)

正则化

通常情况下样本数目应远远大于样本的维度。实际上不是如此,则可能过拟合。解决方法:

  • 增加样本;
  • 特征选择或者特征提取(降维);
  • 正则化(对目标函数增加约束);
  • 记损失函数为L(W)L(W),P(W)P(W)为惩罚项,则正则化的目标为

    argminWL(W)+λP(W)\arg\min_{W} \quad L(W)+\lambda P(W)

    线性回归引入两种正则化:

    • L1L_{1}——Lasso,P(W)=W1P(W)=||W||_{1}
    • L2L_{2}——Ridge岭回归(权值衰减)P(W)=W22=WWP(W)=||W||_{2}^{2}=W^{\top}W.
  • 对于岭回归,通过和最小二乘相同的推导步骤可得参数的估计为:

    W=(XX+λI)1XYW=(X^{\top}X+\lambda I)^{-1}X^{\top}Y

  • 从贝叶斯角度看待:

    假定先验分布为wN(0,σ02)w \sim N\left(0,\sigma_{0}^{2}\right)

    目标计算后验概率:p(wy)=p(yw)p(w)p(y)p(w \mid y) = \frac{p(y \mid w) \cdot p(w)}{p(y)}

    MAP(最大后验概率估计):

    w^=argmaxwp(wy)=argmaxwp(yw)p(w)\begin{aligned} \hat{w} &=\arg \max _{w} p(w \mid y) \\ &=\arg \max_{w} p(y \mid w) \cdot p(w) \end{aligned}

    由模型的基本假设:

    f(w)=wxy=f(m)+ε=wx+εεN(0,σ2)yx;wN(wx,σ2)\begin{array}{l} \quad f(w)=w^{\top} x \\ \quad y=f(m)+\varepsilon=w^{\top} x+\varepsilon \\ \quad \varepsilon \sim N\left(0,\sigma^{2}\right) \\ \quad y \mid x ; w \sim N\left(w^{\top} x, \sigma^{2}\right) \end{array}

    因此$ p(y \mid w) , p(w)$都可以写出具体形式,按照MAP定义将继续写则可以推得

    w^=argmaxwp(wy)=argmaxwp(yw)p(w)=argminw(YWX)2+σ2σ02W22\begin{aligned} \hat{w} &=\arg \max _{w} p(w \mid y) \\ &=\arg \max_{w} p(y \mid w) \cdot p(w)\\ &=\arg \min_{w} (Y-W^{\top}X)^{2}+\frac{\sigma^{2}}{\sigma^{2}_{0}}||W||_{2}^{2} \end{aligned}

    也就是说MAP等价于惩罚因子为σ2σ02\frac{\sigma^{2}}{\sigma^{2}_{0}}的岭回归。

总结:

  • LSE(最小二乘估计)等价于噪声为高斯的MLE
  • 惩罚LSE(岭回归) 等价于先验分布和噪声都是高斯分布的MAP

为什么 lasso 更容易使部分权重变为 0 而 ridge 不行?????

3-线性回归

图中的坐标系表示W的为两维的情况,一圈又一圈的椭圆表示函数 J=1ni=1n(wxi+byi)2J=\frac{1}{n} \sum_{i=1}^{n}\left(\boldsymbol{w}^{\top} \boldsymbol{x}_{i}+b-y_{i}\right)^{2}的等高线,椭圆越往外,J 的值越大,ww^{*}表示使得损失 J取得全局最优的值。使用 Gradient descent,也就是让 w向着ww^{*}的位置走。如果没有 L1 或者 L2 正则化约束,ww^{*} 是可以被取到的。但是,由于有了约束 w1<t||w||_{1}<tw22<t||w||_{2}^{2}<t,w 的取值只能限制在图中灰色方形和圆形区域。当然调整 t 的值,我们能够扩大这两个区域。

等高线从低到高第一次和 w的取值范围相切的点,即是 lasso 和 ridge 回归想要找的权重 w^\hat{w}

lasso 限制了 w 的取值范围为有棱角的方形,而 ridge 限制了 w 的取值范围为圆形,等高线和方形区域的切点更有可能在坐标轴上,而等高线和圆形区域的切点在坐标轴上的概率很小。这就是为什么 lasso(L1 正则化)更容易使得部分权重取 0,使权重变稀疏;而 ridge(L2 正则化)只能使权重接近 0,很少等于 0。

区域的切点在坐标轴上的概率很小。这就是为什么 lasso(L1 正则化)更容易使得部分权重取 0,使权重变稀疏;而 ridge(L2 正则化)只能使权重接近 0,很少等于 0。**

正是由于 lasso 容易使得部分权重取 0,所以可以用其做 feature selection,lasso 的名字就指出了它是一个 selection operator。权重为 0 的 feature 对回归问题没有贡献,直接去掉权重为 0 的 feature,模型的输出值不变。对于 ridge regression 进行 feature selection,你说它完全不可以吧也不是,weight 趋近于 0 的 feature 不要了不也可以,但是对模型的效果还是有损伤的,这个前提还得是 feature 进行了归一化。