前言

BP 算法是迄今最成功的神经网络学习算法，现实任务中使用神经网络时，大多是在使用 BP 算法进行训练。BP 算法允许来自代价函数的信息通过网络向后流动，以便计算梯度。

反向传播的四个基本方程及推导

定义

反向传播算法（BP算法）

在接下来的公式中：
wljk 表示从 (l−1)th 层的 kth 个神经元到 lth 层的 jth 个神经元的链接上的权重。
alj 表示 lth 层第 jth 个神经元的**值。
blj 表示在 lth 层第 jth 个神经元的偏置。
C 表示代价函数。
L 表示输出层。
有了上面的表示，我们可以将两个相邻层之间的**值通过方程关联起来：

z l j = \sum k w l j k a l - 1 k + b l j a l j = σ (z l j)

其中 σ() 为激励函数。
上面两个公式的向量化形式：

z l = w l a l - 1 + b l a l = σ (z l)

关于代价函数的两个假设：
1. 代价函数可以被写成一个在每个训练样本 x 上的代价函数 Cx 的均值 C=1n∑xCx。
2. 代价可以写成神经网络输出的函数 cost C=C(aL)。

最后，定义 l 层的第 jth 个神经元上的误差 δlj 为：

δ l j \equiv \partial C \partial z l j

反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义其实就是计算偏导数 ∂C∂wljk 和 ∂C∂blj。为了计算这些值，我们首先引入了一个中间量 ∂lj，这个我们称为在 lth 层第 jth 个神经元上的误差。
反向传播将给出计算误差 δ 的流程，然后将其关联到计算 ∂C∂wljk 和 ∂C∂blj 上。

四个方程式

我们先直接给出四个基本方程，然后给出推导的过程。

δ L = \nabla a C ⊙ σ' (z l) (B P 1) δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l) (B P 2) \partial C \partial b l j = δ l j (B P 3) \partial C \partial w l j k = a l - 1 k δ l j (B P 4)

其中，⊙ 运算符表示矩阵对应元素相乘。

四个基本方程的推导

BP1:
已知定义 δLj=∂C∂zLj，应用链式法则，得：

δ L j = \partial C \partial a L j \partial a L j \partial z L j

由 aLj=σ(zLj) 得：

δ L j = \partial C \partial a L j σ' (z L j)

这就是 (BP1) 的分量形式。
BP2:

δ = \partial C \partial z l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z l j = \sum k \partial z l + 1 k \partial z l j δ l + 1 k

因为 (注意wl+1kj表示的意义，k,j 都是表示一层网路的第几个神经元，重要的是符号的位置)：

z l + 1 k = \sum j w l + 1 k j a l j + b l + 1 k = \sum j w l + 1 k j σ (z l j) + b l + 1 k

做微分，得：

\partial z l + 1 k \partial z l j = w l + 1 k j σ' (z l j)

把他带入上式，得：

δ l j = \sum k w l + 1 k j δ l + 1 k σ' (z l j)

这就是（BP2）的分量形式。
BP3：

δ l j = \partial C \partial z l j = \partial C \partial b l j \partial b l j \partial z l j

由 zlj=∑kwljkal−1k+blj 得：

\partial b l j \partial z l j = 1

因此：

\partial C \partial b l j = δ l j

BP4:

\partial C \partial w l j k = \partial C \partial z l j \partial z l j \partial w l j k