[机器学习] 矩阵求导最小二乘问题

原文请点击
关于最小二乘问题的求解，之前已有梯度下降法，还有比较快速的牛顿迭代。今天来介绍一种方法，是基于矩阵求导来计算的，它的计算方式更加简洁高效，不需要大量迭代，只需解一个正规方程组。

在开始之前，首先来认识一个概念和一些用到的定理。矩阵的迹定义如下：

一个 n*n 的矩阵的迹是指的主对角线上各元素的总和，记作 $t r (A)$ 。即

t r (A) = \sum_{i = 1}^{n} a_{i i}

定理1：
$t r (A B) = t r (B A)$

证明： $t r (A B) = \sum_{i = 1}^{n} (A B)_{i i} = \sum_{i = 1}^{n} \sum_{j = 1}^{m} A_{i j} B_{j i} = \sum_{j = 1}^{m} \sum_{i = 1}^{n} B_{j i} A_{i j} = \sum_{j = 1}^{m} (B A)_{j j} = t r (B A)$

定理2：
$t r (A B C) = t r (C A B) = t r (B C A)$

证明：把AB或者BC当作整体，由定理1可知道成立

定理3：
$\frac{\partial t r (A B)}{A} = \frac{\partial t r (B A)}{A} = B^{T}$ , 其中A是 m*n的矩阵，B是n*m的矩阵。

证明：

t r (A B) = [\begin{matrix} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{m 1} & a_{m 2} & \dots & a_{m n} \end{matrix}] = [\begin{matrix} b_{11} & b_{12} & \dots & b_{1 m} \\ b_{21} & b_{22} & \dots & b_{2 m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ b_{n 1} & b_{b 2} & \dots & b_{n m} \end{matrix}]

我们只考虑对角线上的元素，那么有

$t r (A B) = \sum_{i = 1}^{n} a_{1 i} b_{i 1} + \sum_{i = 1}^{n} a_{2 i} b_{i 2} + . . . + \sum_{i = 1}^{n} a_{m i} b_{i m} = \sum_{i = 1}^{m} \sum_{j = 1}^{n} a_{i j} b_{j i}$

$\frac{\partial t r (A B)}{\partial A} = b_{j i} = B^{T}$

定理4：
$\frac{\partial t r (A^{T} B)}{\partial A} = \frac{\partial t r (B A^{T})}{\partial A} = B$

证明：
证明步骤和定理3一样，很容易，不再赘述。

定理5：
$t r (A) = t r (A^{T})$

定理6：
如果 a 是一个实数，那么有 $t r (a) = a$

定理7：
$\frac{\partial t r (A B A^{T} C)}{\partial A} = C A B + C^{T} A B^{T}$

证明：
分步骤求导：
$\frac{\partial t r (A B A^{T} C)}{\partial A} = \frac{\partial t r (A B A^{T} C)}{\partial A} + \frac{\partial t r (A^{T} C A B)}{\partial A}$