文章目录

1、线性回归的基本形式
2、误差函数
3、如何求得最优解

3.1 最小二乘法
3.2 梯度下降法

4、引入正则项的回归
5、为什么是均方误差

1、线性回归的基本形式

给定数据集 $\mathcal{D} = \left\{ (\vec x_1,y_1),(\vec x_2,y_2),…,(\vec x_m,y_m) \right\}$ ，共m个样本，其中 $\vec x_i = (x_{i1},x_{i2},…,x_{id})$ ,代表每条数据的d个不同属性，比如房价预测问题中的房屋面积，卧室数量，建造年份等。 $\quad y_i \in R$ ，代表房屋的价格。回归问题主要是训练一个模型，通过房屋的不同属性拟合出房屋价格，即：
$f(\vec x) = w_1x_1 + w_2x_2 +\ldots +w_dx_d + b$
也可写成向量的形式：
$f(\vec x) = \vec w^\mathrm{T} \vec x + b$
其中 $\vec w = (w_1,w_2,\ldots,w_d)$ 。

通过训练，求得最优的 $\vec w, b$ ，线性回归模型也就确定下来了。

为了理解方便，我们先考虑一种简单的情形，输入数据的属性只有一个，即研究房屋的面积与房屋价格之间的关系，不考虑价格与其他房屋属性之间的关系。线性回归模型试图寻找最优的 $w, b$ ，使得预测的房价 $f(x_i) = wx_i + b$ ,满足： $f(x_i)$ 尽可能的接近真实的房屋价格 $y_i$ 。

2、误差函数

如何训练求得最优的 $w,b$ 呢？

关键在于如何衡量 $f(x)$ 和 $y$ 之间的差别，常用的做法是使用均方误差进行性能度量，当均方误差最小时，此时的 $w, b$ 即为最优解。即：
$\begin{aligned} (w^*,b^*) & = arg \min \limits_{w,b} \sum_{i=1}^m(f( x_i) - y_i)^2 \\& = arg \min \limits_{w,b} \sum_{i=1}^m(y_i - wx_i - b)^2 \end{aligned}$
注：均方误差的几何意义：欧氏距离。

3、如何求得最优解

3.1 最小二乘法

只要我们能够做到极小化误差函数，就能够得到最优解。求解 $w,b$ 使得 $E_{(w,b)} = \sum_{i=1}^m(y_i - wx_i - b)^2$ 最小化的过程，称为线性回归的最小二乘“参数估计”。

因为这里的误差函数 $E_{(w,b)}$ 是关于 $w,b$ 的凸函数，根据凸函数的定义可知，当他关于 $w和 b$ 的导函数为0时，可以求得 $w$ 和 $b$ 的最优解。
$\begin{aligned} \cfrac{\partial E_{(w, b)}}{\partial w}&=\cfrac{\partial}{\partial w} \left[\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\right] \\ &= \sum_{i=1}^{m}\cfrac{\partial}{\partial w} \left[\left(y_{i}-w x_{i}-b\right)^{2}\right] \\ &= \sum_{i=1}^{m}\left[2\cdot\left(y_{i}-w x_{i}-b\right)\cdot (-x_i)\right] \\ &= \sum_{i=1}^{m}\left[2\cdot\left(w x_{i}^2-y_i x_i +bx_i\right)\right] \\ &= 2\cdot\left(w\sum_{i=1}^{m} x_{i}^2-\sum_{i=1}^{m}y_i x_i +b\sum_{i=1}^{m}x_i\right) \\ &=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) \end{aligned}$

$\begin{aligned} \cfrac{\partial E_{(w, b)}}{\partial b}&=\cfrac{\partial}{\partial b} \left[\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\right] \\ &=\sum_{i=1}^{m}\cfrac{\partial}{\partial b} \left[\left(y_{i}-w x_{i}-b\right)^{2}\right] \\ &=\sum_{i=1}^{m}\left[2\cdot\left(y_{i}-w x_{i}-b\right)\cdot (-1)\right] \\ &=\sum_{i=1}^{m}\left[2\cdot\left(b-y_{i}+w x_{i}\right)\right] \\ &=2\cdot\left[\sum_{i=1}^{m}b-\sum_{i=1}^{m}y_{i}+\sum_{i=1}^{m}w x_{i}\right] \\ &=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) \end{aligned}$

令：
$\left \{ \begin{array}{lr} \cfrac{\partial E_{(w, b)}}{\partial w} = 2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) =0 &\\ \cfrac{\partial E_{(w, b)}}{\partial b} =2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) = 0 \end{array} \right.$

解得：
$\left \{ \begin{array}{lr} w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2} &\\b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i) \end{array} \right.$

求得 $w,b$ 即可的单变量回归模型。

对于多变量回归的情况，也就是预测房价时，除了考虑房屋面积，还要考虑卧室数量，建造年份等因素。为了便于讨论。把偏置b和w整合到一个向量中(下文出现的 $\vec w$ 遵循这个标准)，此时：
$\vec w = (w_1, w_2,\ldots,w_d;b)$
注： $\vec w$ 默认列向量， $\vec w^ \mathrm T$ 为横向量，下同。

把m条数据的房屋价格也写成向量的形式：
$\vec y = (y_1, y_2,\ldots,y_m)$

相应的把数据 $\mathcal D$ 也进行改写，对于每一个数据扩展为 $\vec x_i = (x_{i1},x_{i2},\ldots,x_{id},1)$ (下文出现的 $\vec x_i$ 遵循这个标准)，整体数据集扩展为 $m\times(d+1)$ 的矩阵 $\textbf X$ ：
$\textbf X = \begin{bmatrix}x_{11} & x_{12} & \cdots & x_{1d} &1 \\x_{21} & x_{22} & \cdots & x_{2d} &1 \\ \vdots & \vdots & \ddots & \vdots &\vdots \\x_{m1} & x_{m2} & \cdots\ & x_{md} &1 \\\end{bmatrix}$
其中，每一行代表一个数据，改行的前d个元素对应房屋的d个属性值，最后一个元素置为1。

此时对于单个样本有：
$f(\vec x_i) = \vec w ^T \vec x$

此时，
$X\vec w =\begin{bmatrix}x_{11} & x_{12} & \cdots & x_{1d} &1 \\x_{21} & x_{22} & \cdots & x_{2d} &1 \\ \vdots & \vdots & \ddots & \vdots &\vdots \\x_{m1} & x_{m2} & \cdots\ & x_{md} &1 \\\end{bmatrix} \begin{bmatrix}w_{1} \\w_{2} \\ \vdots \\b \\\end{bmatrix} = \begin{bmatrix} w_1x_{11} + w_2x_{12} +\ldots +w_dx_{1d} + b \\w_1x_{21} + w_2x_{22} +\ldots +w_dx_{2d} + b \\ \vdots \\w_1x_{m1} + w_2x_{m2} +\ldots +w_dx_{md} + b \\\end{bmatrix}$
这样通过一次运算，就可求得所有的样本点的房屋价格。也不需要单独考虑 b 。

此时的最优解为：

$\hat{\boldsymbol{w}}^*=\underset{\hat{\boldsymbol{w}}}{\arg\min}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$

均方误差为：
$E_{\hat w}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$
均方误差对 $\vec w$ 求导：
$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$
推导过程如下：
$E_{\hat{\boldsymbol w}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})$
展开可得：
$E_{\hat{\boldsymbol w}}= \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y}-\boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}-\hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+\hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}$

对 $\hat{\boldsymbol w}$ 求导可得
$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= \cfrac{\partial \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y}}{\partial \hat{\boldsymbol w}}-\cfrac{\partial \boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}}{\partial \hat{\boldsymbol w}}-\cfrac{\partial \hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}}{\partial \hat{\boldsymbol w}}+\cfrac{\partial \hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}}{\partial \hat{\boldsymbol w}}$

由矩阵微分公式
$\cfrac{\partial\boldsymbol{a}^{\mathrm{T}}\boldsymbol{x}}{\partial\boldsymbol{x}}=\cfrac{\partial\boldsymbol{x}^{\mathrm{T}}\boldsymbol{a}}{\partial\boldsymbol{x}}=\boldsymbol{a},\cfrac{\partial\boldsymbol{x}^{\mathrm{T}}\mathbf{A}\boldsymbol{x}}{\partial\boldsymbol{x}}=(\mathbf{A}+\mathbf{A}^{\mathrm{T}})\boldsymbol{x}$

可得
$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= 0-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+(\mathbf{X}^{\mathrm{T}}\mathbf{X}+\mathbf{X}^{\mathrm{T}}\mathbf{X})\hat{\boldsymbol w}$

$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$
解得：
$\hat{\boldsymbol{w}}^*=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$

这里我们发现：当且仅当 $\mathbf{X}^{\mathrm{T}}\mathbf{X}$ 可逆时上式成立。 $\hat{\boldsymbol{w}}^*$ 有唯一解。

实际情况是， $\mathbf{X}^{\mathrm{T}}\mathbf{X}$ 往往不是满秩矩阵，比如一些数据属性数目大于样本数，结合解方程组时，若因变量过多，则会出现多组解。选择哪一个解作为最终模型，将由算法的归纳偏好决定，常见的做法是引入正则项。

3.2 梯度下降法

我们也可以从梯度下降的角度来理解如何训练求得最优的 $w$ 呢？

梯度下降的核心是：设定初始参数 $w_i$ ,不断迭代，使得 $J({\hat w})$ 最小化
$w_j:=w_j-\alpha\frac{\partial{J(w)}}{\partial w}$

$J({\hat w})=\frac{1}{2}\sum_{i=1}^m(\vec w^\mathrm{T} \vec x_i - y_i)^2$

根据梯度下降法则:
$\begin{aligned} \frac{\partial{J(\vec w)}}{\partial w_j} &= \frac{\partial}{\partial w_j}\frac{1}{2}\sum_{i=1}^{n}(\vec w^\mathrm{T} \vec x_i - y_i)^2 \\ &= 2*\frac{1}{2}\sum_{i=1}^{n}(\vec w^\mathrm{T}\vec x_i - y_i)*\frac{\partial}{\partial w_j}(\vec w^\mathrm{T}\vec x_i - y_i) \\ &= \sum_{i=1}^{n}(\vec w^\mathrm{T}\vec x_i - y_i)*\frac{\partial}{\partial w_j}(\sum_{j=0}^{d}w_jx_{ij}-y_i))\\ &= \sum_{i=1}^{n}(\vec w^\mathrm{T}\vec x_i - y_i)x_{ij} \\ \end{aligned}$

$w_j = w_j - \alpha\sum_{i=1}^{n}(\vec w^\mathrm{T}\vec x_i - y_i)x_{ij}$

注：下标 i 表示第几个样本点。
线性回归的数学知识

梯度下降法沿着图中的1-2-3-4路径逐步达到最小 $J({\hat w})$ 点。梯度下降法的缺陷：如果函数为非凸函数，有可能找到的并非全局最优值，而是局部最优值。

4、引入正则项的回归

介绍两种回归变体。

当样本数远小于特征数时，直接使用
$\min\limits_{\boldsymbol w} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)^{2}$

作为损失函数，很容易导致过拟合，我们在原有的误差函数上引入正则化项。

（1）先引入 $L_2$ 范数：
$\min\limits_{\boldsymbol w} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}{i}\right)^{2}+\lambda||\boldsymbol{w}||_{2}^{2}$

其中 $\lambda > 0$ , 上式即为“岭回归”的优化目标。

（2）引入 $L_1$ 范数：
$\min\limits_{\boldsymbol w} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}{i}\right)^{2}+\lambda||\boldsymbol{w}||_{1}$

其中 $\lambda > 0$ , 上式即为“LASSO 回归”的优化目标。

$L_1$ 范数与 $L_2$ 范数正则化都有助于降低过拟合的风险，但是 $L_1$ 范数更易获得“稀疏”解，即：使用 $L_1$ 范数求得的模型 $w$ 中会有更多的0。

如何理解这一点？为了分析方便，我们假定 $x$ 仅有两个属性，即 $\vec w = (w_1,w_2)$ ，建立以 $w_1,w_2$ 为坐标轴的坐标系。在坐标系中绘制如下方程：

（1） $L_1$ 范数等值线
$||\vec w||_1 = |w_1| + |w_2|$
（2） $L_2$ 范数等值线
$||\vec w||_2 = \sqrt{|w_1|^2 + |w_2|^2}$

(3)平方误差项等值线
$E= \sum_{i=1}^m (y_i - (w_1 x_{i1} + w_1 x_{i2} + b ))^2$

注：等值线即空间中取值相同的点连成的线，以 $L_1$ 范数为例，分别在坐标轴中画出 $|w_1| + |w_2| = 1$ ， $|w_1| + |w_2| = 2$ … $|w_1| + |w_2| = k$ （k为常数）的线，即 $L_1$ 范数中取值相同的点连成的线。

线性回归的数学知识

由图可知：

（1）无论是“岭回归”还是“Lasso回归”，其最优解都出现在图中平方误差项等值线与相应的正则化等值线相交处。如：“Lasso回归”最优解可能是图中的B点，“岭回归”的最优解可能出现在图中的A点。

（2）采用 $L_1$ 范数“Lasso回归”中的，平方误差项等值线与 $L_1$ 的正则化等值线的交点往往出现在坐标轴上，即 $w_1$ 或 $w_2$ 为0；而“岭回归”中，交点往往出现在某个象限中，即 $w_1$ 或 $w_2$ 非0。即： $L_1$ 范数更易获得“稀疏”解（使用 $L_1$ 范数求得的模型 $w$ 中会有更多的0）。

说明：如果 $\vec w$ 中某些元素为0，意味着d个特征中对应着 $\vec w$ 中的0分量的特征将会不起作用，这其实完成了嵌入式的特征选择，即：模型学习的同时进行特征选择。

5、为什么是均方误差

为什么均方误差作为性能的度量是合理的？我们从概率的角度来分析一下。

假设预测值 $f(x_i)$ 与真实值 $y_i$ 之间的误差为 $\epsilon_i$ ,那么真实值与预测值之间有如下关系：
$y_i = f(\vec x_i) + \epsilon_i$
经过训练得到最优的参数 $w,b$ ，使得 $f(x_i)$ 与 $y_i$ 与是十分接近的，所以大部分样本的 $\epsilon_i$ 都是趋近于0，所以， $\epsilon_i$ 可以看成高斯分布，即：
$\epsilon_i \sim \mathcal{N}(0,\sigma^2)$
高斯分布的概率密度函数为：
$P(\epsilon_i) = \frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(\epsilon_i)^2}{2\sigma^2})$
所以：
$\begin{aligned} P(y_i|x_i;w) &= \frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(\epsilon_i)^2}{2\sigma^2}) \\ &= \frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(y_i - f(\vec x_i))^2}{2\sigma^2}) \\ \end{aligned}$
即：在给定 $w,x_i$ 的前提下：
$y_i \sim \mathcal{N}(f(\vec x_i),\sigma^2)\\其中：f(\vec x_i) = \vec w^T \vec x_i$

相当于我们已经知道 $y_i$ 的分布即高斯分布，但是我们不知道他的参数 $\vec w^T$ 和 $\sigma$ , 而极大似然估计法来正是用来解决此类问题的。通过假设样本独立同分布，最大化似然函数，来进行参数估计。

补充一点：最大化似然函数的原理说简单点就是在一次观测中发生了的事件其概率应该大，概率大的事在观测中容易发生，所以我们希望让每一个 $P(y_i|x_i;w)$ 都最大化，这等效于他们的乘积(或他们的乘积取对数)最大化。在这个前提下对参数进行估计。

构造似然函数为：
$L(\vec w) =\prod_{i=1}^m P(y_i|x_i;w) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(y_i - \vec w^T \vec x_i)^2}{2\sigma^2})$

两边同时取对数：
$\begin{aligned}In L(\vec w) &= In \prod_{i=1}^m \frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(y_i - \vec w^T \vec x_i)^2}{2\sigma^2}) \\&= nIn\frac{1}{{\sqrt{2\pi}\sigma}} - \frac{1}{\sigma^2} \cdot \frac{1}{2}\sum^n_{i=1}((y^{(i)}-\vec w^T \vec x_i)^2\end{aligned}$
最大化似然函数，即最小化 $\frac{1}{2}\sum^n_{i=1}((y^{(i)}-\vec w^T \vec x_i)^2$

此结果即为均方误差，因此用这个值作为代价函数来优化模型在统计学的角度是合理的。