线性回归

内容来源：B站 up：shuhuai008

主要内容

最小二乘（矩阵表达，几何意义）
概率角度：最小二乘法等价于噪声为高斯分布的最大似然估计
正则化： $L_{1}$ ——Lasso； $L_{2}$ ——Ridge岭回归

最小二乘（矩阵表达，几何意义）

最小二乘估计结果：参数 $W=(X^{\top}X)^{-1}X^{\top}Y$ .

几何意义：

$f(X)=W^{\top}X$ ——将每个误差平均分散在每个样本上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0AZY6LSy-1596529263815)(E:\document\编程\java\最小二乘几何解释1.png)]

$f(X)=X^{\top}W$ ——将每个误差平均分散在每个维度上。最佳的估计就是 $Y_{n*1}$ 在样本空间上的投影。因此 $X^{\top}(Y-X^{\top}W)=0_{n*1}$ ,同样可以解得最小二成的解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HFtrrEfv-1596529263819)(E:\document\编程\java\最小二乘几何解释2.png)]

概率视角

最小二乘法等价于噪声为高斯分布的最大似然估计（假定噪声的分布之后按照定义写损失函数推到即可）

正则化

通常情况下样本数目应远远大于样本的维度。实际上不是如此，则可能过拟合。解决方法：

增加样本；

特征选择或者特征提取（降维）；

正则化（对目标函数增加约束）；

记损失函数为 $L(W)$ , $P(W)$ 为惩罚项，则正则化的目标为

$\arg\min_{W} \quad L(W)+\lambda P(W)$

线性回归引入两种正则化：
- $L_{1}$ ——Lasso， $P(W)=||W||_{1}$
- $L_{2}$ ——Ridge岭回归(权值衰减）， $P(W)=||W||_{2}^{2}=W^{\top}W$ .
对于岭回归，通过和最小二乘相同的推导步骤可得参数的估计为：

$W=(X^{\top}X+\lambda I)^{-1}X^{\top}Y$
从贝叶斯角度看待：

假定先验分布为 $w \sim N\left(0,\sigma_{0}^{2}\right)$

目标计算后验概率： $p(w \mid y) = \frac{p(y \mid w) \cdot p(w)}{p(y)}$

MAP(最大后验概率估计):

$\begin{aligned} \hat{w} &=\arg \max _{w} p(w \mid y) \\ &=\arg \max_{w} p(y \mid w) \cdot p(w) \end{aligned}$

由模型的基本假设：

$\begin{array}{l} \quad f(w)=w^{\top} x \\ \quad y=f(m)+\varepsilon=w^{\top} x+\varepsilon \\ \quad \varepsilon \sim N\left(0,\sigma^{2}\right) \\ \quad y \mid x ; w \sim N\left(w^{\top} x, \sigma^{2}\right) \end{array}$

因此$ p(y \mid w) , p(w)$都可以写出具体形式，按照MAP定义将继续写则可以推得

$\begin{aligned} \hat{w} &=\arg \max _{w} p(w \mid y) \\ &=\arg \max_{w} p(y \mid w) \cdot p(w)\\ &=\arg \min_{w} (Y-W^{\top}X)^{2}+\frac{\sigma^{2}}{\sigma^{2}_{0}}||W||_{2}^{2} \end{aligned}$

也就是说MAP等价于惩罚因子为 $\frac{\sigma^{2}}{\sigma^{2}_{0}}$ 的岭回归。

总结：

LSE（最小二乘估计）等价于噪声为高斯的MLE

惩罚LSE（岭回归）等价于先验分布和噪声都是高斯分布的MAP

为什么 lasso 更容易使部分权重变为 0 而 ridge 不行？????

3-线性回归

图中的坐标系表示W的为两维的情况，一圈又一圈的椭圆表示函数 $J=\frac{1}{n} \sum_{i=1}^{n}\left(\boldsymbol{w}^{\top} \boldsymbol{x}_{i}+b-y_{i}\right)^{2}$ 的等高线，椭圆越往外，J 的值越大， $w^{*}$ 表示使得损失 J取得全局最优的值。使用 Gradient descent，也就是让 w向着 $w^{*}$ 的位置走。如果没有 L1 或者 L2 正则化约束， $w^{*}$ 是可以被取到的。但是，由于有了约束 $||w||_{1}<t$ 或 $||w||_{2}^{2}<t$ ，w 的取值只能限制在图中灰色方形和圆形区域。当然调整 t 的值，我们能够扩大这两个区域。

等高线从低到高第一次和 w的取值范围相切的点，即是 lasso 和 ridge 回归想要找的权重 $\hat{w}$ 。

lasso 限制了 w 的取值范围为有棱角的方形，而 ridge 限制了 w 的取值范围为圆形，等高线和方形区域的切点更有可能在坐标轴上，而等高线和圆形区域的切点在坐标轴上的概率很小。这就是为什么 lasso（L1 正则化）更容易使得部分权重取 0，使权重变稀疏；而 ridge（L2 正则化）只能使权重接近 0，很少等于 0。

区域的切点在坐标轴上的概率很小。这就是为什么 lasso（L1 正则化）更容易使得部分权重取 0，使权重变稀疏；而 ridge（L2 正则化）只能使权重接近 0，很少等于 0。**

正是由于 lasso 容易使得部分权重取 0，所以可以用其做 feature selection，lasso 的名字就指出了它是一个 selection operator。权重为 0 的 feature 对回归问题没有贡献，直接去掉权重为 0 的 feature，模型的输出值不变。对于 ridge regression 进行 feature selection，你说它完全不可以吧也不是，weight 趋近于 0 的 feature 不要了不也可以，但是对模型的效果还是有损伤的，这个前提还得是 feature 进行了归一化。