最小二乘法的求解

- 1.最小二乘法的求解
- 2.数值解法
  - SVD数值分解
  - QR分解

1.最小二乘法的求解

已知有一个这样的方程组：

$A x = b$

其中 $A \in R^{m \times n}$ ; $x \in R^{n \times k}$ , $b \in R^{m \times k}$

当 $m = n$ 时，且 $r a n A = n$ 时，这是一个适定方程组，有唯一解 $x = A^{- 1} b$

当 $m < n$ 时，或者 $r a n A < n$ 时，这是一个欠定方程组，有无穷多个解。对于这种情况，我们使用 $r a n (A)$ 中与 $b$ 距离最近的向量对应的 $x$ 作为最小二乘解。而相应的 $r a n (A)$ 中的这个向量就是 $b$ 在空间 $r a n (A)$ 中的投影。

当 $m > n$ 时，即方程的个数大于未知数的个数，最小二乘超定系统问题。

超定问题是最小二乘的关键，最小二乘的的意思就是最小化残差(residual)的平方和。

给定 $m$ 个数据， $(a_{1}, b_{1})$ , $(a_{2}, b_{2})$ ,…, $(a_{m}, b_{m})$ , 以及一个模型函数 $b = f (a, x)$ ，其中 ${x_{1}, x_{2}, . . ., x_{n}}$ 就是要估计的参数，该参数的估计就是通过最小化如下残差的平方和求得：

$S = \sum_{i = 1}^{m} ‖ b_{i} - f (a_{i}, x_{i}) ‖^{2}$

其中残差为 $r_{i} = b_{i} - f (a_{i}, x_{i})$ 根据残差函数关于未知参数是否线性，可以最把小二乘分为线性最小二乘和非线性最小二乘。

我们一般讨论的是线性最小二乘法。

线性最小二乘是解决线性回归问题的常用方法，有一个闭式解。线性最小二乘残差函数可以表示为： $r_{i} = b_{i} - a_{i} x_{i}$

另最小二乘的几何表示：
最小二乘法的求解

如图所示， $b$ 不在 $r a n d (A)$ 中，所以 Ax_0 $是$ ran(A) $空间对向量$ b$ 在欧式空间范数下的最好估计。此时

$\forall x \in R^{n}, (A x, b - A x_{0}) = 0$

等价于 $x^{T} A^{T} (b - A x_{0}) = 0$

由于x的任意性，所以

$A^{T} (b - A x_{0}) = 0$

整理得 $x_{0} = (A^{T} A)^{- 1} A^{T} b = A^{+} b$

其中 $A^{+} = (A^{T} A)^{- 1} A^{T}$ 称为 $A$ 的伪逆矩阵。

2.数值解法

原问题等价于： $m i n ‖ A x - b ‖_{2}^{2}$

记 $f (x) = ‖ A x - b ‖_{2}^{2} = (A x - b)^{T} (A x - b) = x^{T} A^{T} A x - 2 b^{T} A x + b^{T} b$ ，对 x 求导得：

$Δ f = 2 (A^{T} A x - A^{T} b) = 0$

解得， $x = (A^{T} A)^{- 1} A^{T} b = A^{+} b$

SVD数值分解

原问题： $m i n ‖ A x - b ‖$ ， $‖ . . ‖$ 代表范数，取欧几里德范数，让每个方程的误差平方和最小，就是求取解 $x_{i}$ 使得 $A x - b$ 的误差最小，即等式最逼近真实值。

将矩阵 $A$ 进行SVD分解： $A = U Σ^{2} V^{T}$ ，矩阵 A 的伪逆矩阵为 $X^{+} = V Σ^{+} U^{T}$ ；

所以 $x = X^{+} b = V Σ^{+} U^{T} b$ ，其中， $Σ^{+}$ 是 $Σ$ 的伪逆矩阵，可以通过对其对角线的元素求倒数，然后转置得到。

$x = V Σ^{+} U^{T} b$

QR分解

将矩阵 $A \in R^{m \times n}$ 进行QR分解： $Q$ 为一个 m×n 的正交矩阵， $R$ 为一个 n×n 的下三角矩阵，

将误差写成如下形式： $r = b - A x$ ，再对矩阵 $A$ 进行 $Q R$ 分解，得 $A = Q R$ ，

则误差式可以写成： $r = b - Q R x$ ；等式两边同时左乘一个 $Q^{T}$ 矩阵，得 $Q^{T} r = Q^{T} b - Q^{T} Q R x$ ；由于 $Q^{T} Q$ 是一个 m×m 的单位矩阵，所以可以分为两个部分：n×n 和 (m-n)×(m-n) ，分别用 $u$ 和 $v$ 表示，这样残差平方和函数变为：

$S = ‖ r ‖^{2} = r^{T} r = r^{T} Q Q^{T} r = u^{T} u + v^{T} v$

由于 $v \in R^{(m - n) \times (m - n)}$ 和 $x \in R^{n \times k}$ 没有关系，所以当误差 $u = 0$ 时，才能使得残差的平方和 $S$ 最小，即因为 $R x = Q^{T} b$ ； $R$ 为下三角矩阵，所以通过回代可以很容易地求解出 $x$ 的值。

最终： $R x = Q^{T} b$

在实际应用中，因为数值稳定性的要求，dense matrix 往往用QR求解，对于大型的稀疏矩阵则多用Cholesky分解（LU分解）。

最小二乘法的求解

1.最小二乘法的求解

2.数值解法

SVD数值分解

QR分解

相关推荐