再探反向传播算法（推导）

之前也写过关于反向传播算法中几个公式的推导，最近总被人问到其中推导的细节，发现之前写的内容某在些地方很牵强，很突兀，没有一步一步紧跟逻辑(我也不准备修正，因为它也代表了一种思考方式)。这两天又重新回顾了一下反向传播算法，所有就再次来说说反向传播算法。这篇博文的目的在于要交代清楚为什么要引入反向传播算法，以及为什么它叫反向传播。

1.从前（正）向传播谈起

在谈反向传播算法之前，我们先来简单回顾一下正向传播（详细版戳此处）。假设有如下网络结构：
再探反向传播算法（推导）

其中：

\begin{aligned} L & = 神经网络总共包含的层数 \\ S_{l} & = 第 l 层的神经元数目 \\ K & = 输出层的神经元数，亦即分类的数目 \\ w_{i j}^{l} & = 第 l 层 第 j 个 神 经 元 与 第 l + 1 层 第 i 个 神 经 元 之 间 的 权 重 值 \end{aligned}

即对如上网络结构来说, $L = 3, s_{1} = 3, s_{2} = 2, s_{3} = K = 2$ ， $a_{i}^{l}$ 表示第 $l$ 层第 $i$ 个神经元的**值， $b^{l}$ 表示第 $l$ 层的偏置。

则有如下正向传播过程：

\begin{aligned} z_{1}^{2} & = a_{1}^{1} w_{11}^{1} + a_{2}^{1} w_{12}^{1} + a_{3}^{1} w_{13}^{1} + b^{1} \\ z_{2}^{2} & = a_{1}^{1} w_{21}^{1} + a_{2}^{1} w_{22}^{1} + a_{3}^{1} w_{23}^{1} + b^{1} \\ ⟹ [\begin{matrix} z_{1}^{2} \\ z_{2}^{2} \end{matrix}] = {[\begin{matrix} w_{11}^{1} & w_{12}^{1} & w_{13}^{1} \\ w_{21}^{1} & w_{22}^{1} & w_{23}^{1} \end{matrix}]}_{2 \times 3} \times {[\begin{matrix} a_{1}^{1} \\ a_{2}^{1} \\ a_{3}^{1} \end{matrix}]}_{3 \times 1} + [\begin{matrix} b^{1} \\ b^{1} \end{matrix}] \\ ⟹ z^{2} = a^{1} w^{1} + b^{1} ⟹ a^{2} = f (z^{2}) \\ ⟹ z^{3} = a^{2} w^{2} + b^{2} ⟹ a^{3} = f (z^{3}) \end{aligned}

所以可以得出正向传播过程几个公式：

\begin{aligned} (1) & z_{i}^{l + 1} = a_{1}^{l} w_{i 1}^{l} + a_{2}^{l} w_{i 2}^{l} + \dots + a_{S_{l}}^{l} w_{i S_{l}}^{l} + b^{l} \\ (2) & z^{l + 1} = a^{l} w^{l} + b^{l} \\ (3) & a^{l} = f (z^{l}) \end{aligned}

其中， $f ()$ 表示**函数，如sigmoid函数。

现在我们已经知道了正向传播的过程，也就是说当我们训练得到参数 $w$ 之后，就可以用正向传播通过网络来预测了。但是大家有没有想过，参数 $w$ 是怎么训练得到的？那第一反应肯定是运用梯度下降算法。既然是用梯度下降算法来求解参数，那第一步当然就是求解梯度了。

2.求解梯度

为了方便阅读，在这个位置再插入一张上面同样的网络结结构图：

再探反向传播算法（推导）

此时，我们假设网络的目标函数为误差平方函数，且暂时不管正则化，同时只考虑一个样本即：

J = \frac{1}{2} (h_{w, b} (x) - y)^{2}

且此处 $h_{w, b} (x) = a^{3}$
由此，我们可以发现：如果 $J$ 对 $w_{11}^{1}$ 求导，则 $J$ 是关于 $a^{3}$ 的函数， $a^{3}$ 是关于 $z^{3}$ 的函数， $z^{3}$ 是关于 $a^{2}$ 的函数， $a^{2}$ 是关于 $z^{2}$ 的函数， $w_{11}^{1}$ 是关于 $z^{2}$ 的函数。

为了更加清晰下面的求导过程，我们先来举两个例子，看看链式求导的过程(如果熟悉链式求导规则，请直接忽略)。

例1：
假设有如下函数：

\begin{aligned} f & = s i n (t), t = x^{2}, x = 5 w \\ ⟹ \frac{\partial f}{\partial w} & = \frac{\partial f}{\partial t} \cdot \frac{\partial t}{\partial x} \cdot \frac{\partial x}{\partial w} = c o s (t) \cdot 2 x \cdot 5 \\ = c o s (x^{2}) \cdot 2 x \cdot 5 = c o s (25 w^{2}) \cdot 10 w \cdot 5 = 50 w c o s (25 w^{2}) \end{aligned}

作为验证，我们直接将 $t, x$ 带入 $f$ 然后求导：

\begin{aligned} f & = s i n (x^{2}) = s i n (25 w^{2}) \\ ⟹ \frac{\partial f}{\partial w} & = c o s (25 w^{2}) \cdot 50 w = 50 w c o s (25 w^{2}) \end{aligned}

例2：
我们再来看一个抽象的，没有表达式得链式求导，假设有如下函数表达式：

\begin{aligned} f & = g (t), t = ϕ (x + y), x = h (w), y = μ (w) \end{aligned}

则我们可以画出如下关系图：
再探反向传播算法（推导）

即，

t

是

f

的函数，

y 和 x

都是

t

的函数，

w

分别又都是

y 和 x

的函数，也就是说我们有两条路径可以到达

w

，所以

\begin{aligned} ⟹ \frac{\partial f}{\partial w} & = \frac{\partial f}{\partial t} \cdot \frac{\partial t}{\partial y} \cdot \frac{\partial y}{\partial w} + \frac{\partial f}{\partial t} \cdot \frac{\partial t}{\partial x} \cdot \frac{\partial x}{\partial w} = \frac{\partial f}{\partial t} \cdot (\frac{\partial t}{\partial y} \cdot \frac{\partial y}{\partial w} + \frac{\partial t}{\partial x} \cdot \frac{\partial x}{\partial w}) \end{aligned}

所以有：

\begin{aligned} \frac{\partial J}{\partial w_{11}^{1}} & = \frac{\partial J}{\partial a_{1}^{3}} \cdot \frac{\partial a_{1}^{3}}{\partial z_{1}^{3}} \cdot \frac{\partial z_{1}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} + \frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} \\ \frac{\partial J}{\partial w_{12}^{1}} & = \frac{\partial J}{\partial a_{1}^{3}} \cdot \frac{\partial a_{1}^{3}}{\partial z_{1}^{3}} \cdot \frac{\partial z_{1}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{12}^{1}} + \frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{12}^{1}} \\ ⋮ \\ \frac{\partial J}{\partial w_{22}^{2}} & = \frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial w_{22}^{2}} \end{aligned}

我们可以发现，当 $J$ 对第2层的参数求导还相对不麻烦，但当 $J$ 对第1层的参数求导的时候就做了很多重复的计算；并且这还是网络相对简单的时候，要是网络相对复杂一点，这个过程简直就是难以下手。这也是为什么神经网络在一段时间发展缓慢的原因，就是因为没有一种高效的计算梯度的方式。

3.一种高效的梯度求解办法

\begin{aligned} \frac{\partial J}{\partial w_{11}^{1}} & = (\frac{\partial J}{\partial a_{1}^{3}} \cdot \frac{\partial a_{1}^{3}}{\partial z_{1}^{3}} \cdot \frac{\partial z_{1}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}}) \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} + (\frac{\partial J}{\partial a_{2}^{3}} \cdot \frac{\partial a_{2}^{3}}{\partial z_{2}^{3}} \cdot \frac{\partial z_{2}^{3}}{\partial a_{1}^{2}} \cdot \frac{\partial a^{2}}{\partial z_{1}^{2}}) \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}} \end{aligned}

从上面的求导公式可以看出，不管你是从哪一条路径过来，在对 $w_{11}^{1}$ 求导之前都会先到达 $z_{1}^{2}$ ，即先对 $z_{1}^{2}$ 求导之后，才会有 $\frac{\partial z_{1}^{2}}{\partial w_{11}^{1}}$ 。也就是说，我不管你是经过什么样的路径，在对连接第 $l$ 层第j个神经元与第 $l + 1$ 第 $i$ 个神经元的参数 $w_{i j}^{l}$ 求导之前，肯定会先对 $z_{i}^{l + 1}$ 求导。因此，对任意参数的求导过程，可以改写为：

\begin{matrix} (4) & \frac{\partial J}{\partial w_{i j}^{l}} = \frac{\partial J}{\partial z_{i}^{l + 1}} \cdot \frac{\partial z_{i}^{l + 1}}{\partial w_{i j}^{l}} = \frac{\partial J}{\partial z_{i}^{l + 1}} \cdot a_{j}^{l} \end{matrix}

例如：

\frac{\partial J}{\partial w_{11}^{1}} = \frac{\partial J}{\partial z_{1}^{1 + 1}} \cdot \frac{\partial z_{1}^{1 + 1}}{\partial w_{11}^{1}} = \frac{\partial J}{\partial z_{1}^{2}} \cdot \frac{\partial z_{1}^{2}}{\partial w_{11}^{1}}

所以，现在的问题变成了如何求解红色部分了，即：

\frac{\partial J}{\partial z_{i}^{l + 1}} = ? ? ?

从网络结构图可以， $J$ 对任意 $z_{i}^{l}$ 求导，求导路径必定会经过第 $l + 1$ 层的所有神经元，于是有:

\begin{aligned} \frac{\partial J}{\partial z_{i}^{l}} & = \frac{\partial J}{\partial z_{1}^{l + 1}} \cdot \frac{\partial z_{1}^{l + 1}}{\partial z_{i}^{l}} + \frac{\partial J}{\partial z_{2}^{l + 1}} \cdot \frac{\partial z_{2}^{l + 1}}{\partial z_{i}^{l}} + \dots + \frac{\partial J}{\partial z_{S_{l + 1}}^{l + 1}} \cdot \frac{\partial z_{S_{l + 1}}^{l + 1}}{\partial z_{i}^{l}} \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial z_{k}^{l + 1}}{\partial z_{i}^{l}} \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial}{\partial z_{i}^{l}} (a_{1}^{l} w_{k 1}^{l} + a_{2}^{l} w_{k 2}^{l} + \dots + a_{S_{l}}^{l} w_{k S_{l}}^{l} + b^{l}) \dots \dots 由 （ 1 ） 可 知 \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial}{\partial z_{i}^{l}} \sum_{j = 1}^{S_{l}} a_{j}^{l} w_{k j}^{l} \\ = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot \frac{\partial}{\partial z_{i}^{l}} \sum_{j = 1}^{S_{l}} f (z_{j}^{l}) w_{k j}^{l} \\ (5) & = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} \end{aligned}

于是我们得到：

\begin{matrix} (6) & \frac{\partial J}{\partial z_{i}^{l}} = \sum_{k = 1}^{S_{l + 1}} \frac{\partial J}{\partial z_{k}^{l + 1}} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} \end{matrix}

因此

\frac{\partial J}{\partial z_{i}^{l + 1}} = \sum_{k = 1}^{S_{l + 2}} \frac{\partial J}{\partial z_{k}^{l + 2}} \cdot f^{'} (z_{i}^{l + 1}) w_{k i}^{l + 1}

为了便于书写和观察规律，我们引入一个中间变量 $δ_{i}^{l} = \frac{\partial J}{\partial z_{i}^{l}}$ ，则(5)得：

\begin{matrix} (7) & δ_{i}^{l} = \frac{\partial J}{\partial z_{i}^{l}} = \sum_{k = 1}^{S_{l + 1}} δ_{k}^{l + 1} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} (l <= L - 1) \end{matrix}

注：之所以要 $l <= L - 1$ ，是因为由（5）得推导过程可知， $l$ 最大只能取到 $L - 1$ ，第L层后面没有网络层了。

所以：

\begin{aligned} δ_{i}^{L} & = \frac{\partial J}{\partial z_{i}^{L}} = \frac{\partial}{\partial z_{i}^{L}} [\frac{1}{2} \sum_{k = 1}^{S_{L}} (h_{k} (x) - y_{k})^{2}] \\ = \frac{\partial}{\partial z_{i}^{L}} [\frac{1}{2} \sum_{k = 1}^{S_{L}} (f (z_{k}^{L}) - y_{k})^{2}] \\ = [f (z_{i}^{L}) - y_{i}] \cdot f^{'} (z_{i}^{L}) \\ (8) & = [a_{i}^{L} - y_{i}] \cdot f^{'} (z_{i}^{L}) \end{aligned}

同时将(7)带入(4)可知：

\begin{matrix} (9) & \frac{\partial J}{\partial w_{i j}^{l}} = δ_{i}^{l + 1} \cdot a_{j}^{l} \end{matrix}

通过上面的所有推导，我们可以得到如下3个公式：

\begin{aligned} \frac{\partial J}{\partial w_{i j}^{l}} = δ_{i}^{l + 1} \cdot a_{j}^{l} \\ δ_{i}^{l} = \frac{\partial J}{\partial z_{i}^{l}} = \sum_{k = 1}^{S_{l + 1}} δ_{k}^{l + 1} \cdot f^{'} (z_{i}^{l}) w_{k i}^{l} (0 < l \leq L - 1) \\ δ_{i}^{L} = [a_{i}^{L} - y_{i}] \cdot f^{'} (z_{i}^{L}) \end{aligned}

且经过适量化后为：

\begin{aligned} (10) & \frac{\partial J}{\partial w^{l}} = δ^{l + 1} \cdot (a^{l})^{T} \\ (11) & δ^{l} = (w^{l})^{T} \cdot δ^{l + 1} * f^{'} (z^{l}) \\ (12) & δ^{L} = [a^{L} - y] * f^{'} (z^{L}) \end{aligned}

符号

\cdot

表示矩阵乘法；符号

*

表示两个矩阵相同位置的元素对应相乘

由(10)(11)(12)分析可知，欲求 $J$ 对 $w^{l}$ 的导数，必先知道 $δ^{l + 1}$ ；而欲知 $δ^{l + 1}$ ，必先求 $δ^{l + 2}$ ，以此类推……
由此可知对于整个求导过程，一定是先求 $δ^{L}$ ，再求 $δ^{L - 1}$ ，一直到 $δ^{2}$

为了方便阅读，在这个位置再插入一张上面同样的网络结结构图：

再探反向传播算法（推导）

对于这样一个网络结构，整个求导过程（不含 $b^{l}$ ）如下：

\begin{aligned} S t e p 1 : δ^{3} = [a^{3} - y] * f^{'} (z^{3}) \\ S t e p 2 : \frac{\partial J}{\partial w^{2}} = δ^{3} \cdot (a^{2})^{T} \\ S t e p 3 : δ^{2} = (w^{2})^{T} \cdot δ^{3} * f^{'} (z^{2}) \\ S t e p 4 : \frac{\partial J}{\partial w^{1}} = δ^{2} \cdot (a^{1})^{T} \end{aligned}

于是我们终于发现了这么一个不争的事实：
1.最先求解出导数的参数一定位于第 $L - 1$ 层上(如此处的 $w^{2}$ )；
2.要想求解第 $l$ 层参数的导数，一定会用到第 $l + 1$ 层上的中间变量 $δ^{l + 1}$ (如此处求解 $w^{1}$ 的导数，用到了 $δ^{2}$ );
3.整个过程是从后往前的；

所以，该过程被形象的称为反向（后向）传播算法。
另： $δ^{l}$ 被称为第 $l$ 层的“残差”

一个重要的结论：
反向传播算法是用来求解梯度的！

反向传播算法是用来求解梯度的！

重要的话说三遍，因为不少人总是把梯度下降和反向传播两个搞得稀里糊涂的。

4.总结

通过举例对平方误差目标函数反向传播算算法公式的推导，我们可以总结出更为一般的情况，即：

\begin{aligned} (13) & \frac{\partial J}{\partial w^{l}} = δ^{l + 1} \cdot (a^{l})^{T} \\ (14) & δ^{l} = (w^{l})^{T} \cdot δ^{l + 1} * f^{'} (z^{l}) \\ (15) & δ_{i}^{L} = \frac{\partial J}{\partial z_{i}^{L}} = \frac{\partial J}{\partial a_{i}^{L}} \cdot \frac{\partial a_{i}^{L}}{\partial z_{i}^{L}} = \frac{\partial J}{\partial a_{i}^{L}} \cdot \frac{\partial f (z_{i}^{L})}{\partial z_{i}^{L}} = \frac{\partial J}{\partial a_{i}^{L}} \cdot f^{'} (z_{i}^{L}) \\ (16) & \frac{\partial J}{\partial b^{l}} = δ^{l + 1} \end{aligned}

我们可以看到，仅仅只有公式(15)才依赖于不同的目标函数；比如在交叉熵中 $δ_{i}^{L} = a^{L} - y$ 推导戳此处.

关于反向传播算法的推导基本上可以告一段落了，下一篇我们将通过一个例子用python来实现，这样就会更清楚了。

再探反向传播算法（推导）

相关推荐