MIT 线性代数导论 第十六讲:投影矩阵和最小二乘

本讲的主要内容:

  • 简单回顾前一讲中的投影矩阵的概念
  • 结合例子具体说明最小二乘
  • 证明 ATAA^{T}A 是可逆的

回顾

上一讲的最重要的知识点如下:

  • p=Axp= Ax
  • P=A(ATA)1ATP=A(A^{T}A)^{-1}A^{T}
  • ATAx=ATbA^{T}Ax=A^{T}b

首先定义pp 是向量投影在向量空间AA的分向量,PP称为投影矩阵,作用是将某个向量投影到一个向量空间中,例如:PbPb 表示将 bb 投影到 AA 的列空间里,这里有几种特殊情况:

  • bbC(A)C(A)里,则Pb=bPb=b
  • bb 正交于C(A)C(A),则Pb=0Pb=0
    这些是上一讲的知识,在本讲中主要是如何应用到最小二乘法中。

应用:最小二乘法

继续使用上一讲最后的例子,首先要对两张图有概念:
MIT 线性代数导论 第十六讲:投影矩阵和最小二乘
这张图中,两个正交的向量空间 C(A)C(A)N(AT)N(A^{T}) ,其中有一个向量 bb不属于这两个空间,现在对这个向量向两个空间投影,分别得到ppee.
MIT 线性代数导论 第十六讲:投影矩阵和最小二乘
这也就是之前的例子了,有三个数据点(1,1),(2,2),(3,2),我们想要拟合出一条直线使得三个点到直线的距离最小,也就是最优,其中数据点投影到直线为pp,距离向量是ee

接下来开始,
假设对这些数据点进行拟合的曲线为 y=C+Dty = C + Dt,其中根据原来的数据点的关系 Ax=bAx=b,可以写成:
(111213)(CD)=(123) \begin{pmatrix} 1 &1 \\ 1 &2 \\ 1 &3 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix}
要明确,这个时候方程是无解(因为数据点并不在直线上)我们的目标就是,最小化数据点到直线的距离,也就是:Axb2=e2\left \| Ax-b \right \|^{2} = \left \| e \right \|^{2},这个式子也等价于:
Axb2=e2e12+e22+e32(C+D1)2+(C+2D2)2+(C+3D2)2 \left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}\Leftrightarrow e_{1}^{2} + e_{2}^{2} + e_{3}^{2}\Leftrightarrow (C+D-1)^{2} + (C+2D-2)^{2}+(C+3D-2)^{2}
(其中第二个是相当于第二个图中距离向量的关系,第三个则是将(1,1)等数据点代入得到)

我们的目的是解出 CCDD 以及投影后的向量PP,根据由之前的讲到的关于最小二乘的方程(也就是投影):
ATAx^=ATb A^{T}A\hat{x} = A^{T}b
代入三个数据点得到:
(36614)(CD)=(511) \begin{pmatrix} 3 &6 \\ 6 &14 \end{pmatrix} \begin{pmatrix} C\\ D \end{pmatrix}= \begin{pmatrix} 5\\ 11 \end{pmatrix}
接下来消元解方程得到:C=1/2C=1/2D=2/3D=2/3 表示求得的最优方程是:y=2/3+1/2ty=2/3 + 1/2t
得到了这个方程,那我们就可以得到所有的量了,
首先将三个数据点代入最优方程,可得到投影P=(7/65/313/6)P=\begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}根据PPbb可以计算出误差e=(1/62/61/6)e=\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}它们之间的关系有:
b=p+e,(122)=(7/65/313/6)+(1/62/61/6) b = p+e,即:\begin{pmatrix} 1\\ 2\\ 2 \end{pmatrix}= \begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}+\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}
这一部分的推导过程真的好难表示啊。。但是还是那样,只要写一写过程,就会很容易理解了。

证明ATAA^{T}A可逆

如果命题成立,则看这个方程:ATAx=0A^{T}Ax=0,显然是只有零解的(可逆也就是满秩,所以没有自由向量,只有零解)
首先将方程两侧都乘XTX^{T}:
xTATAx=0 x^{T}A^{T}Ax=0
根据转置的规则,等价于:
(Ax)T(Ax)=0 (Ax)^{T}(Ax)=0
这种形式是与向量长度的形式是一致的,注意这个地方是向量(Ax=bAx=bbb是列向量),所以可以继续得出下面的结论
Ax=0 Ax=0
因为AA是列向量无关的,所以:
x=0 x=0
得证。

标准正交向量

这里提及了一点接下来的内容,如果我们得到一组相互垂直的单位向量,比如:三维坐标的(1,0,0),(0,1,0)和(0,0,1),或者二维平面中的 (sinθ,cosθ)(-sin\theta,cos\theta)(cosθ,sinθ)(cos\theta,sin\theta)。都称为 标准正交向量

这一部分的内容比较乱,很容易把人绕晕,多推导几遍就好了。

以上~