The Elements of Statistical Learning-线性模型和最小二乘法(5)

考虑到整理的方便,后面每一个章节都放在一个文件中,然后想到哪写到哪

线性模型和最小二乘法

Input vector: XT=(X1,X2,,Xp)

Predict Output: Y

By the linear regression model:

f(X)=β0+j=1pXjβj

Assumes regression function E(Y|X) is linear or reasonable approximation.

Xj can come from difference sources.

Least squares estimation, the residual sum of squares:

(71)RSS(β)=i=1N(yif(xi))2(72)=i=1N(yiβ0j=1pxijβj)

The Elements of Statistical Learning-线性模型和最小二乘法(5)

把RSS写成矩阵形式就是

RSS(β)=(yXβ)T((yXβ))

很容易计算其最小值点:β^=(XTX)1XTy
下图可以看出,计算最小二乘的几何意义就是相当于在黄色低维超平面上找一个向量y^来近似原来的向量y,很显然在yy^与黄色低维超平面垂直的时候y^y最近。
The Elements of Statistical Learning-线性模型和最小二乘法(5)

因此,我们又可以得出预测值与真实之的关系:

y^=Xβ^=X(XTX)1XTy=Hy

The matrix H sometimes called the “hat” matrix OR projection matrix, because it puts the hat on y.
如果这里y是独立的,并且方差(或者协方差)为常值σ2,我们很容易就能计算出β^的方差。

为了表示方便,这里仅仅用 2 表示乘以自身转置。

Var(β^)=E(β^Eβ^)(β^Eβ^)T=E((XTX)1XTyE((XTX)1XTy))2=[(XTX)1XT][(XTX)1XT]TE(yEY)2=(XTX)1σ2

可以由下面的式子来估计σ2:
σ^2=1Np1i=1N(yiy^i)2

这里分母去Np1而不是N可以参考下面以为形式的证明:
The Elements of Statistical Learning-线性模型和最小二乘法(5)
The Elements of Statistical Learning-线性模型和最小二乘法(5)
这里如果σ^2σ2的一个无偏估计就有E(σ^2)=σ2,证明参考这里的方差偏差分解公式的推导

如果我们假设f(X)=β0+j=1pXjβj是对Y的均值的正确估计,再假设Y的离散在其期望周围是可加和高斯的。也就是说:

Y=E(Y|X1,,X++p)+ε=β0+j=1pXjβj+ε

其中εN(0,σ2)
结合上面的结论,我们就可以得到
β^N(β,(XT,X)1σ2)