矩阵求导法

1、前言

设 $y=f(x)$ 且 $x=[x_1 \ x_2 \ ... x_n]^{T}$ ，由多元函数微积分可知
$dy=\sum_{i=1}^{n} \frac{dy}{dx_i}dx_i=(\frac{dy}{dx})^{T}dx$
将向量 $x$ 推广到矩阵的形式，可以得到
$dy=\sum_{i = 1}^{n}\sum_{j = 1}^{m}\frac{\partial y}{\partial X_{ij}}dX_{ij}=tr((\frac{\partial y}{\partial X})^{T}dX)$

值得注意的是，本文所有向量都默认为列向量的形式，用小写字母表示标量和向量，用大写字母表示矩阵。

2、布局方式

矩阵求导法一般来说，我们会使用一种叫混合布局的思路，即如果是向量或者矩阵对标量求导，则使用分子布局为准，如果是标量对向量或者矩阵求导，则以分母布局为准。

3、基本公式

3.1 微分基本性质

微分加减法： $d(X \pm Y)=dX \pm dY$
微分乘法： $d(XY)=XdY+YdX$
微分转置： $d(X^{T})=(dX)^{T}$
逆矩阵微分： $d(X^{-1})=-X^{-1}d(X)X^{-1}$
哈达马积（Hadamard Product）微分： $d(X \odot Y) = X \odot dY + dX \odot Y$
逐项元素求导： $d\sigma(X) = \sigma ^{'}(X) \odot dX$

3.2 迹的基本性质（针对标量对向量或者矩阵求导情况）

$tr(x)=x(x为标量)$
$tr(A^{T})=tr(A)$
$tr(AB)=tr(BA)$
$tr(A \pm B) = tr(A) \pm tr(B)$
$d[tr(X)]=tr(dX)$
$tr[(A \odot B)^{T}C] = tr[A^{T}(B \odot C)]$

3.3 性质证明

（1） $d(X^{-1})=-X^{-1}d(X)X^{-1}$

证：
$\begin{aligned} d(X^{-1}) &= d(X^{-1}XX^{-1})=d(X^{-1})XX^{-1}+X^{-1}d(X)X^{-1}+X^{-1}Xd(X^{-1}) \\ &= 2d(X^{-1})+X^{-1}d(X)X^{-1} \\ \end{aligned}$

3.4 例题

(1)已知标量 $y=a^{T}Xb$ ，求 $\frac{\partial y}{\partial x}$ 。

解：
$\begin{aligned} dy&=d[tr(a^{T}Xb)]=tr[d(a^{T}Xb)]=tr[d(a^{T})Xb+a^{T}d(X)b+a^{T}Xd(b)] \\&=tr[a^{T}d(X)b]=tr(ba^{T}dX) \end{aligned}$
$\because dy = tr((\frac{\partial y}{\partial X})^{T})dX$ ， $\therefore \frac{\partial y}{\partial X} = ab^{T}$

（2）已知标量 $y=X^{T}AX$ ，求 $\frac{\partial y}{\partial X}$ 。

解：
$\begin{aligned} dy&=d[tr(X^{T}AX)]=tr[d(X^{T}AX)]=tr[d(X^{T})AX+X^{T}AdX] \\ &=tr[d(X^{T})AX]+tr(X^{T}AdX) \\ &=tr[d(X)^{T}AX]+tr(X^{T}AdX) \\ &=tr(X^{T}A^{T}dX)+tr(X^{T}AdX) \\ &=tr[X^{T}(A^{T}+A)dX] \end{aligned}$
$\because dy = tr((\frac{\partial y}{\partial X})^{T})dX$ ， $\therefore \frac{\partial y}{\partial X} = (A+A^{T})X$

（3）已知标量 $y=a^{T}e^{Xb}$ ，求 $\frac{\partial y}{\partial X}$ 。

解：
$\begin{aligned} dy &= tr(dy)=tr(a^{T}de^{Xb})=tr[a^{T}(e^{Xb}\odot d(Xb))] \\ &= tr[(a \odot e^{Xb})^{T}d(Xb)]=tr[b(a \odot e^{Xb})^{T}dX] \end{aligned}$
$\because dy = tr((\frac{\partial y}{\partial X})^{T})dX$ ， $\therefore \frac{\partial y}{\partial X} = (a \odot e^{Xb})b^{T}$

4、链式法则

4.1 向量对向量的链式法则

假设存在链式关系： $x(m \times 1) \rightarrow y(n \times 1) \rightarrow z(p \times 1)$ ，则有如下链式求导法则：
$\frac{\partial z}{\partial x} = \frac{\partial z}{\partial y} \frac{\partial y}{\partial x}$
从矩阵维度角度来看， $\frac{\partial z}{\partial x}$ 是 $p \times m$ 的矩阵， $\frac{\partial z}{\partial y}$ 是 $p \times n$ 的矩阵， $\frac{\partial y}{\partial x}$ 是 $n \times m$ 的矩阵，满足矩阵相乘的法则。

4.2 标量对向量的链式法则

假设存在链式关系： $x(m \times 1) \rightarrow y(n \times 1) \rightarrow z(1 \times 1)$ ，从矩阵维度角度来看， $\frac{\partial z}{\partial x}$ 是 $m \times 1$ 的矩阵， $\frac{\partial z}{\partial y}$ 是 $n\times 1$ 的矩阵， $\frac{\partial y}{\partial x}$ 是 $n \times m$ 的矩阵，显然无法写成如下形式：
$\frac{\partial z}{\partial x} = \frac{\partial z}{\partial y} \frac{\partial y}{\partial x}$
为了使维度相容，式子应该写成：
$\frac{\partial z}{\partial x} = (\frac{\partial y}{\partial x})^{T} \frac{\partial z}{\partial y}$
事实上，出现上述转置的原因是：我们使用了混合布局，对于标量对向量求导使用的是分母布局，而向量对向量求导使用的是分子布局。

对于更深的链式关系： $x \rightarrow y_{1} \rightarrow y_{2} \rightarrow ... \rightarrow y_{n} \rightarrow z$ ，有链式求导法则：
$\frac{\partial z}{\partial x} = (\frac{\partial y_{n}}{\partial y_{n-1}}\frac{\partial y_{n-1}}{\partial y_{n-2}}...\frac{\partial y_{1}}{\partial x})^{T} \frac{\partial z}{\partial y_{n}}$
例子：已知 $loss = (X \theta - y)^{T}(X \theta - y)$ ，求 $\frac{\partial loss}{\partial \theta}$ 。

解：

令 $z=X\theta-y$ ，则存在链式关系： $\theta \rightarrow z \rightarrow loss$ ，则由链式求导法则有：
$\frac{\partial loss}{\partial \theta}=(\frac{\partial z}{\partial \theta})^{T} \frac{\partial loss}{\partial z}=X^{T}(2z)=2X^{T}(X \theta - y)$

4.3 标量对矩阵的链式法则

由于矩阵对矩阵的求导是比较复杂的定义，现在只对一些简单的线性关系求导继续分析。假设存在链式关系： $X \rightarrow Y \rightarrow z$ ，即 $z=f(Y)$ ， $Y=AX+B$ ，现在要求解 $\frac{\partial z}{\partial X}$ ，分析过程如下：
$\begin{aligned} \frac{\partial z}{\partial x_{ij}}&=\sum_{k,l}\frac{\partial z}{\partial Y_{kl}}\frac{\partial Y_{kl}}{\partial X_{ij}} = \sum_{k,l}\frac{\partial z}{\partial Y_{kl}}\frac{\partial \sum_{s}(A_{ks}X_{sl})}{\partial X_{ij}}\\ &=\sum_{k,l}\frac{\partial z}{\partial Y_{kl}}\frac{\partial A_{ki}X_{il}}{\partial X_{ij}}=\sum_{k}\frac{\partial z}{\partial Y_{kj}}A_{ki} \end{aligned}$
可以看出 $\frac{\partial z}{\partial x_{ij}}$ 的值为矩阵 $A^{T}$ 的第 $i$ 行和 $\frac{\partial z}{\partial Y}$ 的第 $j$ 列的内积，所以可得：
$\frac{\partial z}{\partial X} = A^{T}\frac{\partial z}{\partial Y}$