本节内容综述

反向传播就是更好地进行梯度下降的方法；
并不是很晦涩的数学属性，只需要知道 Chain Rule ；
本节课具体阐述了反向传播算法，具体都在“小细节”里。

小细节

Chain Rule

【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的

如上，定义了损失函数，进行了简单推导后，我们只需：

聚焦在如何计算某一笔数据的偏微分；
先考虑某一个神经元。

如上，将 $\frac{\partial l}{\partial w}$ 拆分成两项，前者较容易计算，如下。
【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的

如下，对于某神经元，其输出对权重的偏微分就是输入。
【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的

而对于后者 $\frac{\partial l}{\partial z}$ ，依然使用链式法则拆分。假设我们的 $z$ 通过**函数得到 $a$ 。即这个神经元的输出为 $a = \sigma(z)$ 。接下来这个 $a$ 会乘上下一层的权重，然后再加上其他的值得到下一神经元的输入 $z'$ … 我们这里先不管那么多，只考虑目前这个步骤。

有 $\frac{\partial l}{\partial z} = \frac{\partial a}{\partial z} \frac{\partial l}{\partial a}$

这里的 $\frac{\partial a}{\partial z}$ 实际上就是简单的**函数微分 $\sigma'(z)$ ，如下图。
【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的
那么 $\frac{\partial l}{\partial a}$ 是什么呢？

由 chain rule 可知

$\frac{\partial l}{\partial a} = \frac{\partial z'}{\partial a} \frac{\partial l}{\partial z'} + \frac{\partial z''}{\partial a} \frac{\partial l}{\partial z''}$

【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的

如上图，首先易得 $\frac{\partial z'}{\partial a}=w_3$ ， $\frac{\partial z''}{\partial a}=w_4$ ，难点在于 $\frac{\partial l}{\partial z'}$ 与 $\frac{\partial l}{\partial z'‘}$ 。

先把其当成常数，把式子整理一下：

$\frac{\partial l}{\partial z} = \sigma'(z) [w_3 \frac{\partial l}{\partial z'} + w_4 \frac{\partial l}{\partial z''}]$

Back propagation - Backward pass

【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的

有没有注意到 $\frac{\partial l}{\partial z} = \sigma'(z) [w_3 \frac{\partial l}{\partial z'} + w_4 \frac{\partial l}{\partial z''}]$

这个式子的形式和我们前面的 $\frac{\partial l}{\partial z} = \frac{\partial a}{\partial z} \frac{\partial l}{\partial a}=\sigma'(z)\frac{\partial l}{\partial a}$

很像？

因此，我们可以想象一个新的“神经元”，其输入就是 $\frac{\partial l}{\partial z'}$ 与 $\frac{\partial l}{\partial z''}$ ，输出是 $\frac{\partial l}{\partial z}$ 。此外，因为 $z$ 已经固定， $\sigma'(z)$ 是一个常数；因此可以把这个神经元理解为一个放大器。

Case 1. Output Layer

如果下面蓝色的神经元是隐藏层最后一层，那么此时就已知神经元输出，则由下式

$\frac{\partial l}{\partial z'} = \frac{\partial y_1}{\partial z'} \frac{\partial l}{\partial y_1}$

一切都可计算：

$\frac{\partial y_1}{\partial z'}$ 是**函数偏导；
$\frac{\partial l}{\partial y_1}$ 是 loss 对 $y_1$ 偏微分。

Case 2：Not Output Layer

假设下图中红色的神经元并不是输出，那么：

$z'$ 经过**函数得到 $a'$ ；
$a'$ 继续到下一层，得到 $z_a$ 和 $z_b$ 。

【李宏毅2020 ML/DL】P13 Backpropagation | 神经网络反向传播到底是怎么计算的

由上面的“放大器神经元”，我们知道有如下关系：

$\frac{\partial l}{\partial z'} = \sigma'(z') [w_5 \frac{\partial l}{\partial z_a} + w_6 \frac{\partial l}{\partial z_b}]$

可见，尽管我们不知道当前 $\frac{\partial l}{\partial z}$ 到底是多少，但是可以通过 $\frac{\partial l}{\partial z'}$ 与 $\frac{\partial l}{\partial z''}$ 计算；而 $\frac{\partial l}{\partial z'}$ 又可以由 $\frac{\partial l}{\partial z_a}$ 和 $\frac{\partial l}{\partial z_b}$ 得到…由此，我们可以通过神经网络的反向传播（从 output layer 出发），一层层经过“放大器”，达到我们现在的神经元。