《机器学习基石》9-Linear Regression

这一节主要介绍线性回归算法。

Linear Regression Problem

对于输出空间 $Y = R$ 的一类问题，一个比较简单的想法就是：将 Linear Classification 的决策函数中的 sign 函数去掉，使用各种特征的加权结果来表示 $y$

y \approx \sum_{i = 0}^{d} w_{i} x_{i} = w^{T} x

这就是线性回归算法，它的假设空间为

h (x) = w^{T} x

线性回归的目标是寻找一条直线（

R^{2}

）或者一个平面（

R^{3}

）或者超平面（

R^{n}

），使得误差最小，常用的误差函数是平方误差

E_{i n} (w) = \frac{1}{N} \sum_{n = 1}^{N} {(h (x_{n}) - y_{n})}^{2}

E_{o u t} (w) = \underset{(x, y) \sim P}{ϵ} (w^{T} x - y)

Linear Regression Algorithm

将 $E_{i n}$ 写成矩阵形式

\begin{aligned} E_{i n} (w) & = \frac{1}{N} \sum_{n = 1}^{N} {(h (x_{n}) - y_{n})}^{2} \\ = \frac{1}{N} ‖ \begin{matrix} x_{1}^{T} w - y_{1} \\ x_{2}^{T} w - y_{2} \\ \cdot \cdot \cdot \\ x_{N}^{T} w - y_{N} \end{matrix} ‖^{2} \\ = \frac{1}{N} ‖ X w - y ‖^{2} \end{aligned}

其中

X = [\begin{matrix} x_{1}^{T}, 1 \\ x_{2}^{T}, 1 \\ \cdot \cdot \cdot \\ x_{N}^{T}, 1 \end{matrix}] \in R^{N \times (d + 1)}

w \in R^{(d + 1) \times 1}

y \in R^{N \times 1}

我们的目标是找到一个

w

，使得

E_{i n} (w)

尽可能小。因此，将

E_{i n} (w)

对

w

求导，得到：

\nabla E_{i n} (w) = \frac{2}{N} X^{T} (X w - y)

令

\nabla E_{i n} (w) = 0

，得到

w

的最优解

w_{LIN} = (X^{T} X)^{- 1} X^{T} y = X^{†} y

其中

X^{†} = (X^{T} X)^{- 1} X^{T}

称为矩阵

X

的伪逆，于是

h (x) = w_{LIN}^{T} x

将上面做一个小结，得到 Linear Regression 算法的流程如下：
《机器学习基石》9-Linear Regression

Generalization Issue

下面我们来分析一下 Linear Regression 的 $E_{i n}$

\begin{aligned} E_{i n} (w_{L I N}) & = \frac{1}{N} | | y - \hat{y} | |^{2} \\ = \frac{1}{N} | | y - X X^{†} y | |^{2} \\ = \frac{1}{N} | | (I - H) y | |^{2} \end{aligned}

其中

H = X X^{†}

是投影矩阵，把

y

投影到

X

的

d + 1

个向量构成的平面上，

H

有如下的性质：

对称性 $H = H^{T}$
幂等性 $H^{2} = H$
半正定性 $λ_{i} \geq 0$
$t r a c e (I - H) = N - (d + 1)$

《机器学习基石》9-Linear Regression
假设 $y = f (X) + noise, f (x) \in span$ ，那么如上图所示，有

\begin{aligned} E_{i n} (w_{L I N}) & = \frac{1}{N} | | (I - H) y | |^{2} \\ = \frac{1}{N} | | (I - H) n o i s e | |^{2} \\ = \frac{1}{N} t r a c e (I - H) | | n o i s e | |^{2} \\ = \frac{1}{N} (N - (d + 1)) | | n o i s e | |^{2} \end{aligned}

得到：

E_{i n} (w_{L I N}) = | | n o i s e | |^{2} \cdot (1 - \frac{d + 1}{N})

E_{o u t} (w_{L I N}) = | | n o i s e | |^{2} \cdot (1 + \frac{d + 1}{N})

两者最终都向

σ^{2}

(noise level)收敛，差距是

\frac{2 (d + 1)}{N}

，因此说明算法是可行的。

Linear Regression for Binary Classification

对比一下 Linear Classification 与 Linear Regression：

Linear Regression
- 用于分类问题
- $Y = {+ 1, - 1}$
- $h (x) = sign (w^{T} x)$
- NP-hard，难于求解
Linear Regression
- 用于回归问题
- $Y = R$
- $h (x) = w^{T} x$
- 易于求解

因为

{err}_{0 / 1} = [[sign (w^{T} x) \neq y]] \leq {err}_{sqr} = (w^{T} x - y)^{2}

所以可以将 Linear Regression 用于分类问题上：

run Linear Regression on binary classification data $D$
return $g (x) = sign (w_{LIN}^{T} x)$

以上便是 Linear Regression 的内容。

《机器学习基石》9-Linear Regression

Linear Regression Problem

Linear Regression Algorithm

Generalization Issue

Linear Regression for Binary Classification

相关推荐