反向传播算法及其实现

理清反向传播算法

背景
定义全连接网络
前向运算
链式求导
反向传播算法

背景

去年看了《神经网络与深度学习》的前几章，了解了反向传播算法的一些皮毛，当时想自己实现一下，但是由于事情多，就放下了。现在有时间，也是由于想理清这算法就动手推公式和写代码了。

------这里只以全连接层作为例子，主要是我最近的一些理解------

定义全连接网络

反向传播算法及其实现
上图所示，说明一下参数：
$w_{ij}^{l}$ ：表示第 $l$ 层中的第 $i$ 个神经元与第 $l+1$ 层中第 $j$ 个神经元的权重
$b_{i}^{l}$ ：表示第 $l$ 层中的第 $i$ 个神经元的偏向值
$z_{i}^{l}$ ：表示第 $l$ 层中的第 $i$ 个神经元的输入值，它由前一层对应权重与偏向和。
$a_{i}^{l}$ ：表示第 $l$ 层中的第 $i$ 个神经元的输出值，它是输入值经**函数计算所得。
这里每个神经元所用**函数为 $sigmoid$ 函数 $s(x)=\frac{1}{1+e^{-x}}$ ，顺便算下 $s(x)$ 对 $x$ 求导的结果为： $s^{\prime}(x)=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}}=s(x)(1-s(x))$ 。
这个网络输出是两个值，可以代表一个二分类网络每个类别的概率。输入是两个值，可以想象每一个样本有两个特征值。

接下来我们举个例子，看网络的前向运算。

前向运算

输入一个样本 $X$ ，它有两个特征值如下表示：
$\begin{aligned} X =\{x_{1},x_{2}\} \end{aligned}$
两个特征值进入输入层，也就是第一层的输出值，于是可以依次计算出第二层每个神经元的输入值和**值（对下一层的输出值）：

$z_{1}^{2}=w_{11}^{1}\cdot x_{1}+w_{21}^{1}\cdot x_{2}+b_{1}^{2}$

$z_{2}^{2}=w_{12}^{1}\cdot x_{1}+w_{22}^{1}\cdot x_{2}+b_{2}^{2}$

$z_{3}^{2}=w_{13}^{1}\cdot x_{1}+w_{23}^{1}\cdot x_{2}+b_{3}^{2}$

$a_{1}^{2}=s(z_{1}^{2})$

$a_{2}^{2}=s(z_{2}^{2})$

$a_{3}^{2}=s(z_{3}^{2})$

接下来算出第三层每个神经元的输入值和对下一层的输出值：

$z_{1}^{3}=w_{11}^{2}\cdot a_{1}^{2}+w_{21}^{2}\cdot a_{2}^{2}+w_{31}^{2}\cdot a_{3}^{2}+b_{1}^{3}$

$z_{2}^{3}=w_{12}^{2}\cdot a_{1}^{2}+w_{22}^{2}\cdot a_{2}^{2}+w_{32}^{2}\cdot a_{3}^{2}+b_{2}^{3}$

$z_{3}^{3}=w_{13}^{2}\cdot a_{1}^{2}+w_{23}^{2}\cdot a_{2}^{2}+w_{33}^{2}\cdot a_{3}^{2}+b_{3}^{3}$

$a_{1}^{3}=s(z_{1}^{3})$

$a_{2}^{3}=s(z_{2}^{3})$

$a_{3}^{3}=s(z_{3}^{3})$

有了第三层**值，那么可以算出第四层，也就是输出层的值：

$z_{1}^{4}=w_{11}^{3}\cdot a_{1}^{3}+w_{21}^{3}\cdot a_{2}^{3}+w_{31}^{3}\cdot a_{3}^{3}+b_{1}^{4}$

$z_{2}^{4}=w_{12}^{3}\cdot a_{1}^{3}+w_{22}^{3}\cdot a_{2}^{3}+w_{32}^{3}\cdot a_{3}^{3}+b_{2}^{4}$

$a_{1}^{4}=s(z_{1}^{4})$

$a_{2}^{4}=s(z_{2}^{4})$

得到网络的输出值 $a_{1}^{4},a_{2}^{4}$ ，我们与真实值相比较，设对于样本 $X$ 的标签为 $Y={\{y_{1},y_{2}\}}$ 。那么算出网络计算值与真实值的差距 $loss$ ,这里用平方差：
$\begin{aligned} loss =\frac{(y_{1}-a_{1}^{4})^{2}+(y_{2}-a_{2}^{4})^{2}}{2} \end{aligned}$
有了损失值，那么，我们应该优化网络参数，不断降低损失值。这里采用最常用的梯度下降法，来求loss的最小值。因为，沿梯度相反的方向，就是函数值下降最快的方向。那么接下来就是求每个 $l$ 关于 $w,b$ 的梯度，然后按照一定的学习率 $lr$ 更新这些参数，如下：
$\begin{aligned} w = w-lr\cdot\frac{\mathfrak{d} loss}{\mathfrak{d} w} （1） \end{aligned}$
$\begin{aligned} b = b-lr\cdot\frac{\mathfrak{d} loss}{\mathfrak{d} b} （2） \end{aligned}$
，总有一天，loss会降到最低，令我们满意。
那么，计算每个 $w,b$ 的梯度，这和前向计算一样，是一件体力活，接下来就采用链式求导来依次计算出 $\frac{\mathfrak{d} loss}{\mathfrak{d} w}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} b}$

链式求导

从最后一层开始，求 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{11}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{12}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{21}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{22}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{31}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{32}^{3}}$ 以及 $\frac{\mathfrak{d} loss}{\mathfrak{d} b_{1}^{4}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} b_{2}^{4}}$ ：

参照上面前向计算式子，从后往前看,直到遇见 $b_{1}^{4}$ 为止：

$loss =\frac{(y_{1}-a_{1}^{4})^{2}+(y_{2}-a_{2}^{4})^{2}}{2}$

$a_{1}^{4}=s(z_{1}^{4})$

$z_{1}^{4}=w_{11}^{3}\cdot a_{1}^{3}+w_{21}^{3}\cdot a_{2}^{3}+w_{31}^{3}\cdot a_{3}^{3}+b_{1}^{4}$

那么可以依照链式求导法则来求 $loss$ 对 $b_{1}^{4}$ 的偏导数：

$\begin{aligned} \frac{\mathfrak{d} loss}{\mathfrak{d} b_{1}^{4}}&=\frac{\mathfrak{d} loss}{\mathfrak{d} a_{1}^{4}}\cdot\frac{\mathfrak{d}a_{1}^{4}}{\mathfrak{d}z_{1}^{4}}\cdot\frac{\mathfrak{d}z_{1}^{4}}{\mathfrak{d} b_{1}^{4}} \\ &=-\frac{1}{2}\cdot2\cdot(y_{1}-a_{1}^{4})\cdot s(z_{1}^{4})\cdot(1-s(z_{1}^{4})) \\ &=-(y_{1}-a_{1}^{4})\cdot s(z_{1}^{4})\cdot(1-s(z_{1}^{4})) \end{aligned}$

同理可以得到下面：

$\begin{aligned} \frac{\mathfrak{d} loss}{\mathfrak{d} b_{2}^{4}}&=\frac{\mathfrak{d} loss}{\mathfrak{d} a_{2}^{4}}\cdot\frac{\mathfrak{d}a_{2}^{4}}{\mathfrak{d}z_{2}^{4}}\cdot\frac{\mathfrak{d}z_{2}^{4}}{\mathfrak{d} b_{2}^{4}} \\ &=-\frac{1}{2}\cdot2\cdot(y_{2}-a_{2}^{4})\cdot s(z_{2}^{4})\cdot(1-s(z_{2}^{4})) \\ &=-(y_{2}-a_{2}^{4})\cdot s(z_{2}^{4})\cdot(1-s(z_{2}^{4})) \end{aligned}$

$\begin{aligned} \frac{\mathfrak{d} loss}{\mathfrak{d} w_{11}^{3}} &= \frac{\mathfrak{d} loss}{\mathfrak{d} a_{1}^{4}} \cdot \frac{\mathfrak{d}a_{1}^{4}}{\mathfrak{d}z_{1}^{4}} \cdot \frac{\mathfrak{d}z_{1}^{4}}{\mathfrak{d} w_{11}^{3}} \end{aligned}$

$\begin{aligned} \frac{\mathfrak{d} loss}{\mathfrak{d} w_{12}^{3}} &= \frac{\mathfrak{d} loss}{\mathfrak{d} a_{2}^{4}} \cdot \frac{\mathfrak{d}a_{2}^{4}}{\mathfrak{d}z_{2}^{4}} \cdot \frac{\mathfrak{d}z_{2}^{4}}{\mathfrak{d} w_{12}^{3}} \end{aligned}$
$......$ 照这样计算下去就可以把这一层参数偏导数全求出来。
最后一层求出之后，再求倒数第二层 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{11}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{12}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{13}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{21}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{22}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{23}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{31}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{32}^{2}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{33}^{2}}$ 以及 $\frac{\mathfrak{d} loss}{\mathfrak{d} b_{1}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} b_{2}^{3}}$ 、 $\frac{\mathfrak{d} loss}{\mathfrak{d} b_{2}^{3}}$ ：

这一层有点深，求 $\frac{\mathfrak{d} loss}{\mathfrak{d} b_{1}^{3}}$ ，从后往前看：

$loss =\frac{(y_{1}-a_{1}^{4})^{2}+(y_{2}-a_{2}^{4})^{2}}{2}$

$a_{1}^{4}=s(z_{1}^{4})$

$a_{2}^{4}=s(z_{2}^{4})$

$z_{1}^{4}=w_{11}^{3}\cdot a_{1}^{3}+w_{21}^{3}\cdot a_{2}^{3}+w_{31}^{3}\cdot a_{3}^{3}+b_{1}^{4}$

$z_{2}^{4}=w_{12}^{3}\cdot a_{1}^{3}+w_{22}^{3}\cdot a_{2}^{3}+w_{32}^{3}\cdot a_{3}^{3}+b_{2}^{4}$

$a_{1}^{3}=s(z_{1}^{3})$

$z_{1}^{3}=w_{11}^{2}\cdot a_{1}^{2}+w_{21}^{2}\cdot a_{2}^{2}+w_{31}^{2}\cdot a_{3}^{2}+b_{1}^{3}$

直到出现 $b_{1}^{3}$ ,然后求偏导数：

$\begin{aligned} \frac{\mathfrak{d} loss}{\mathfrak{d} b_{1}^{3}} &= \frac{\mathfrak{d} loss}{\mathfrak{d} a_{1}^{4}} \cdot \frac{\mathfrak{d}a_{1}^{4}}{\mathfrak{d}z_{1}^{4}} \cdot \frac{\mathfrak{d}z_{1}^{4}}{\mathfrak{d} a_{1}^{3}} \cdot \frac{\mathfrak{d} a_{1}^{3}}{\mathfrak{d} z_{1}^{3}} \cdot \frac{\mathfrak{d} z_{1}^{3}}{\mathfrak{d} b_{1}^{3}}+ \frac{\mathfrak{d} loss}{\mathfrak{d} a_{2}^{4}} \cdot \frac{\mathfrak{d}a_{2}^{4}}{\mathfrak{d}z_{2}^{4}} \cdot \frac{\mathfrak{d}z_{2}^{4}}{\mathfrak{d} a_{1}^{3}} \cdot \frac{\mathfrak{d} a_{1}^{3}}{\mathfrak{d} z_{1}^{3}} \cdot \frac{\mathfrak{d} z_{1}^{3}}{\mathfrak{d} b_{1}^{3}} \end{aligned}$

好了，接下来看 $\frac{\mathfrak{d} loss}{\mathfrak{d} w_{11}^{2}}$ ：

$loss =\frac{(y_{1}-a_{1}^{4})^{2}+(y_{2}-a_{2}^{4})^{2}}{2}$

$a_{1}^{4}=s(z_{1}^{4})$

$a_{2}^{4}=s(z_{2}^{4})$

$z_{1}^{4}=w_{11}^{3}\cdot a_{1}^{3}+w_{21}^{3}\cdot a_{2}^{3}+w_{31}^{3}\cdot a_{3}^{3}+b_{1}^{4}$

$z_{2}^{4}=w_{12}^{3}\cdot a_{1}^{3}+w_{22}^{3}\cdot a_{2}^{3}+w_{32}^{3}\cdot a_{3}^{3}+b_{2}^{4}$

$a_{1}^{3}=s(z_{1}^{3})$

$z_{1}^{3}=w_{11}^{2}\cdot a_{1}^{2}+w_{21}^{2}\cdot a_{2}^{2}+w_{31}^{2}\cdot a_{3}^{2}+b_{1}^{3}$

看到了 $w_{11}^{2}$ ,那就求导：

$\begin{aligned} \frac{\mathfrak{d} loss}{\mathfrak{d} w_{11}^{2}} &= \frac{\mathfrak{d} loss}{\mathfrak{d} a_{1}^{4}} \cdot \frac{\mathfrak{d}a_{1}^{4}}{\mathfrak{d}z_{1}^{4}} \cdot \frac{\mathfrak{d}z_{1}^{4}}{\mathfrak{d} a_{1}^{3}} \cdot \frac{\mathfrak{d} a_{1}^{3}}{\mathfrak{d} z_{1}^{3}} \cdot \frac{\mathfrak{d} z_{1}^{3}}{\mathfrak{d} w_{11}^{2}}+ \frac{\mathfrak{d} loss}{\mathfrak{d} a_{2}^{4}} \cdot \frac{\mathfrak{d}a_{2}^{4}}{\mathfrak{d}z_{2}^{4}} \cdot \frac{\mathfrak{d}z_{2}^{4}}{\mathfrak{d} a_{1}^{3}} \cdot \frac{\mathfrak{d} a_{1}^{3}}{\mathfrak{d} z_{1}^{3}} \cdot \frac{\mathfrak{d} z_{1}^{3}}{\mathfrak{d} w_{11}^{2}} \end{aligned}$
接下来，算其它的也是一样的方法，这里就不赘述了！
求出所有层的参数，然后按照梯度下降法的公式（1）、（2），更新一次参数。再不断重复这个前向运算和后向求偏导并更新参数过程，使得 $loss$ 降到最低。
这里大家可能就发现问题了，这样求导，越往深处求，越发现，有些偏导数前面的都是一样的，而且已经求过了，在求所有偏导数时，存在大量的不必要的重复计算。那怎么才能优化它呢？接下来就介绍反向传播算法来加速网络求梯度。