# 多层神经网络BP算法解释 ## 前向传播 *** * 该项目采用反向传播算法描述了多层神经网络的教学过程。为了说明这个过程，使用了具有两个输入和一个输出的三层神经网络，如下图所示:

训练数据由（期望输出） $z$ 和输入信号 $x_{1}$ 和 $x_{2}$ 组成。
神经网络训练是一个迭代过程。在每次迭代中，使用来自训练数据集的新数据来修改节点的权重系数 $w$ 。
使用下面描述的算法计算修改：每个教学步骤从强制来自训练集的两个输入信号开始。在此阶段之后，我们可以确定每个网络层中每个神经元的输出信号值。
下面的图片说明了信号如何通过网络传播，符号 $w_{（ x m ） n}$ 表示输入层中网络输入 $x m$ 和神经元 $n$ 之间的连接权重。符号 $y_{n}$ 表示神经元 $n$ 的输出信号。

y_{1} = f_{1} (w_{(x_{1}) 1} * x_{1} + w_{(x_{2}) 1} * x_{2})

y_{2} = f_{2} (w_{(x_{1}) 2} * x_{1} + w_{(x_{2}) 2} * x_{2})

y_{3} = f_{3} (w_{(x_{1}) 3} * x_{1} + w_{(x_{2}) 3} * x_{2})

* 其中

f ()

函数可以是

s i g m o d

函数

e x . f (z) = \frac{1}{1 + e^{- z}}

/div> *** * 通过隐藏层传播信号。 * 符号

w_{m n}

表示下一层中神经元

m

的输出与神经元

n

的输入之间的连接的权重。

## BP网络 *** * 将神经网络的输出信号

\hat{y}

与在训练数据集中找到的真实值（

y

）进行比较。该差异被称为输出层神经元的误差信号

δ

。

δ = y - \hat{y}

与下图片对应关系为

y = z

\hat{y} = y

无法计算直接计算隐藏层的真实值和误差，因为该过程在实际生产中不存在，或不可得。
为此，八十年代中期，提出了 BP算法
上一条是重点，重点，重点。
注意下图公式有误，正确表达为
$δ_{4} = w_{46} * δ * \frac{d f_{6} (e)}{d e} = - w_{46} * δ * \hat{y} * (1 - \hat{y})$
其他的同类表达式也需要类似的修改，请注意。
对于有多条边连接的节点， $δ$ 为每条边结果的和。

获得每个神经元的误差信号后，可以利用误差来修改每个神经元输入节点的权重系数。
下面的公式
$\frac{\partial (δ^{2})}{\partial e} = \frac{\partial (y - \hat{y})^{2}}{\partial e} = - (y - \hat{y}) * \hat{y} * (1 - \hat{y})$
表示神经元**函数的导数残差。
$δ^{2}$ 即为 损失函数
又因为对 $\frac{d e}{d θ}$ 有
$\frac{d e}{d θ} = \frac{\partial θ^{T} x}{\partial θ} = x$
由于链式法则：
$\frac{\partial (δ^{2})}{\partial θ} = \frac{\partial (y - \hat{y})^{2}}{\partial e} \frac{d e}{d θ} = - (\hat{y} - y) * \hat{y} * (1 - \hat{y}) * x = - δ * \hat{y} * (1 - \hat{y}) * x$
$\hat{y}$ 表示输出值
$y$ 表示真实值
$x$ 代表上一层的输出或者原始的输入
$δ$ 表示误差 这里用到了上一节BP中的假设
通过这部分化简，我们利用误差 $δ$ 代替了的 $y - \hat{y}$ 从而避开了隐藏层中的未知量 $y$
最后利用标准的* 梯度下降公式*:
$\hat{w} = w - η * \nabla = w + η * δ * \hat{y} * (1 - \hat{y}) * x = w + η * δ * \frac{\partial y}{\partial e} * x$

转载请注明出处，****的markdown还是很迷的。

参考

多层神经网络BP算法解释