周志华—-第5章神经网络（误差逆传播算法）

简介

多层网络的训练需要一种强大的学习算法，其中BP（errorBackPropagation）算法就是成功的代表，它是迄今最成功的神经网络学习算法。简单来说，它可总结为两种模式：信息的正向传播和误差的反向传播。

正向传播：输入的样本从输入层经过隐单元一层一层进行处理，通过所有的隐层之后，则传向输出层，在逐层处理的过程中，每一层神经元的状态只会对下一层神经元的状态产生影响。在输出层把现行输出和期望输出进行比较，如果现行输出不等于期望输出，则进入反向传播过程

反向传播：反向传播时，把原来正向传播的通路反向传回，并对每个隐层的各个神经元的权系数进行修改，以望误差信号趋向最小。

BP误差逆传播算法的数学推导

对训练例 $(x_{k}, y_{k})$ ,假定神经网络的输出为 ${\bar{y}}_{k} = ({\bar{y_{1}}}^{k}, {\bar{y_{2}}}^{k}, \dots, {\bar{y_{l}}}^{k})$ ,即 ${\bar{y_{j}}}^{k} = f (β_{j} - θ_{j})$ ,其中 $β_{j}$ 是第j个输出层神经元的输入值， $θ_{j}$ 是第j个输出层神经元的阙值，这里的f(x)是**函数，常用sigmoid函数。

则网络在 $(x_{k}, y_{k})$ 上的均方误差为： $E_{k} = \frac{1}{2} \sum_{j = 1}^{l} ({\bar{y_{j}}}^{k} - {y_{j}}^{k})^{2}$

BP误差逆传播算法的核心其实就是误差最小化的过程，它的主要策略是负梯度方向的梯度下降算法，即设定参数的初始值，通过一个学习速率 $η$ 和当前梯度，来逐渐步进参数，以求拟合一个局部最优的参数。

一般的参数迭代过程如下：

\begin{aligned} V : & = V + Δ V \\ Δ V & = η * g r a d (V) \end{aligned}

我们以隐藏层中第h个神经元为参照对象，求解它的输入权重v和输出权重w，以及阙值Y,以输出层第J个神经元为输出参照，求解它的阙值

θ

隐藏层到输出层的权重 $W_{h j}$ :

Δ W_{h j} = - η * \frac{d E_{k}}{d W_{h j}}

由复合函数求导公式可得，即链式法则，可归纳为 $h （ a ） = f (g (x))$ , 则 $h^{'} (a) = f^{'} (g (x)) g^{'} (x)$ , $W_{h j}$ 先影响到第 $j$ 个输出层神经元的输入值 $β_{j}$ ，再影响到其输出值 ${\bar{y_{j}}}^{k}$ ，最后影响到误差 $E_{k}$ ：(也就是说它们分别存在对应的函数关系)

\begin{aligned} \frac{d E_{k}}{d W_{h j}} & = \frac{d E_{k}}{d {\bar{y_{j}}}^{k}} * \frac{d {\bar{y_{j}}}^{k}}{d β_{j}} * \frac{d β_{j}}{d W_{h j}} \end{aligned}

另外，由于sigmoid函数的性质： $f^{'} (x) = f (x) (1 - f (x))$ ，又 $s i g m o i d (n e t) = \frac{1}{1 + e^{- n e t}}$

注：上述性质推导公式如下：

\begin{aligned} s i g m o i d^{'} (n e t) & = \frac{e^{- n e t}}{(1 + e^{- n e t})^{2}} \\ = \frac{1 + e^{- n e t} - 1}{(1 + e^{- n e t})^{2}} \\ = \frac{1}{1 + e^{- n e t}} - \frac{1}{(1 + e^{- n e t})^{2}} \\ = s i g m o i d (n e t) - s i g m o i d^{2} (n e t) \end{aligned}

又，由于 ${\bar{y_{j}}}^{k} = f (β_{j} - θ_{j})$ ，则有（因为 $θ_{j}$ 相当于常数，故可以在 $β_{j}$ 处添加，因为求导后常数的部分结果为0，不影响最终结果）：

\begin{aligned} \frac{d {\bar{y_{j}}}^{k}}{d β_{j}} & = \frac{d f (β_{j} - θ_{j})}{d （ β_{j} - θ_{j})} \\ = f (β_{j} - θ_{j}) (1 - f (β_{j} - θ_{j})) \\ = {\bar{y_{j}}}^{k} (1 - {\bar{y_{j}}}^{k}) \end{aligned}

又(注：只有j=j时，函数求导才有意义，其他j等于非j的时候，求导相当于常数求导等于0)：

\begin{aligned} \frac{d E_{k}}{d {\bar{y_{j}}}^{k}} & = \frac{d \frac{1}{2} \sum_{j = 1}^{l} ({\bar{y_{j}}}^{k} - {y_{j}}^{k})^{2}}{d {\bar{y_{j}}}^{k}} \\ = \frac{d \frac{1}{2} ({\bar{y_{j}}}^{k} - {y_{j}}^{k})^{2}}{d {\bar{y_{j}}}^{k}} \\ = {\bar{y_{j}}}^{k} - {y_{j}}^{k} \end{aligned}

同理(注： $s u m_{}$ 能删掉是因为 $W_{i j}$ ,当i不等于h时，相当于常数项导数为0),其中 $b_{h}$ 为隐藏层第h个神经元的输出：

$\frac{d β_{j}}{d W_{h j}} = \frac{d \sum_{i = 1}^{m} W_{i j} b_{i}}{d W_{h j}} = b_{h}$

故：

\begin{aligned} Δ W_{h j} = - η * \frac{d E_{k}}{d W_{h j}} & = - η * \frac{d E_{k}}{d {\bar{y_{j}}}^{k}} * \frac{d {\bar{y_{j}}}^{k}}{d β_{j}} * \frac{d β_{j}}{d W_{h j}} $ \\ = - b_{h} η * ({\bar{y_{j}}}^{k} - {y_{j}}^{k}) * {\bar{y_{j}}}^{k} (1 - {\bar{y_{j}}}^{k}) \end{aligned}

周志华----第5章神经网络（误差逆传播算法）

周志华—-第5章神经网络（误差逆传播算法）

简介

BP误差逆传播算法的数学推导

dβjdWhj=d∑mi=1WijbidWhj=bhdβjdWhj=d∑i=1mWijbidWhj=bh

相关推荐

$\frac{d β_{j}}{d W_{h j}} = \frac{d \sum_{i = 1}^{m} W_{i j} b_{i}}{d W_{h j}} = b_{h}$