考虑到整理的方便，后面每一个章节都放在一个文件中，然后想到哪写到哪

线性模型和最小二乘法

Input vector: $X^{T} = (X_{1}, X_{2}, \dots, X_{p})$

Predict Output: $Y$

By the linear regression model:

f (X) = β_{0} + \sum_{j = 1}^{p} X_{j} β_{j}

Assumes regression function

E (Y | X)

is linear or reasonable approximation.

$X_{j}$ can come from difference sources.

Least squares estimation, the residual sum of squares:

\begin{aligned} (71) & R S S (β) & = \sum_{i = 1}^{N} (y_{i} - f (x_{i}))^{2} \\ (72) & = \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j}) \end{aligned}

把RSS写成矩阵形式就是

R S S (β) = (y - X β)^{T} ((y - X β))

很容易计算其最小值点：

\hat{β} = (X^{T} X)^{- 1} X^{T} y

下图可以看出，计算最小二乘的几何意义就是相当于在黄色低维超平面上找一个向量

\hat{y}

来近似原来的向量

y

，很显然在

y - \hat{y}

与黄色低维超平面垂直的时候

\hat{y}

与

y

最近。

因此，我们又可以得出预测值与真实之的关系：

\hat{y} = X \hat{β} = X (X^{T} X)^{- 1} X^{T} y = H y

The matrix

H

sometimes called the “hat” matrix OR projection matrix, because it puts the hat on

y

.
如果这里

y

是独立的，并且方差(或者协方差)为常值

σ^{2}

，我们很容易就能计算出

\hat{β}

的方差。

为了表示方便，这里仅仅用 ² 表示乘以自身转置。

\begin{aligned} V a r (\hat{β}) & = E (\hat{β} - E \hat{β}) (\hat{β} - E \hat{β})^{T} \\ = E ((X^{T} X)^{- 1} X^{T} y - E ((X^{T} X)^{- 1} X^{T} y))^{2} \\ = [(X^{T} X)^{- 1} X^{T}] [(X^{T} X)^{- 1} X^{T}]^{T} E (y - E Y)^{2} \\ = (X^{T} X)^{- 1} σ^{2} \end{aligned}

可以由下面的式子来估计

σ^{2}

{\hat{σ}}^{2} = \frac{1}{N - p - 1} \sum_{i = 1}^{N} (y_{i} - {\hat{y}}_{i})^{2}

这里分母去

N - p - 1

而不是

N

可以参考下面以为形式的证明：
The Elements of Statistical Learning-线性模型和最小二乘法（5）

这里如果

{\hat{σ}}^{2}

是

σ^{2}

的一个无偏估计就有

E ({\hat{σ}}^{2}) = σ^{2}

如果我们假设 $f (X) = β_{0} + \sum_{j = 1}^{p} X_{j} β_{j}$ 是对 $Y$ 的均值的正确估计，再假设 $Y$ 的离散在其期望周围是可加和高斯的。也就是说：

\begin{aligned} Y & = E (Y | X_{1}, \dots, X - + +_{p}) + ε \\ = β_{0} + \sum_{j = 1}^{p} X_{j} β_{j} + ε \end{aligned}

其中

ε \sim N (0, σ^{2})

结合上面的结论，我们就可以得到

\hat{β} \sim N (β, (X^{T}, X)^{- 1} σ^{2})

The Elements of Statistical Learning-线性模型和最小二乘法（5）