卷积神经网络的反向传播算法(笔记)

学习了这篇博客

全连接神将网络的反响传播算法
- 前向传播
- 反向传播

全连接神经网络的反向传播算法

前向传播

参考连接

卷积神经网络的反向传播算法(笔记)
列举论文中的公式，并与上图所示流程一一对应：

代价函数：
$E N = 12 \sum n = 1 N \sum k = 1 c (t n k - y n k) 2$

为简化分析，只考虑第n个样本对应的代价函数：

$E n = 12 \sum k = 1 c (t n k - y n k) 2$

公式中符号的意义：

N:代表训练样本的个数
c:代表训练样本所对应的类标签的个数
E:代表代价函数
tnk:代表第n个样本对应的类标签的第k维
ynk:代表第n个样本对应的类标签的第k维的预测值

第l层的输出计算公式：

$x l = f (u l), 其中， u l = W l x + b l$

计算到最后一层L层时，也就计算出了神经网络的输出y，至此，前向传播完成。

反向传播

首先计算代价函数关于偏移量的导数：

$\partial E \partial b = \partial E \partial u \partial u \partial b = δ$

这里的b表示偏移量，u是：

$u = W x + b$

文中提到了一个灵敏度的问题，引用zouxy09的解释:

灵敏度的意思就是我们的基b变化多少，误差会变化多少，也就是误差对基的变化率，也就是导数了

根据u的表达式，可以计算出∂E∂b=1,所以有∂E∂b=∂E∂u=δ，也就是说bias基的灵敏度∂E∂b=δ和误差E对一个节点全部输入u的导数∂E∂u是相等的。神奇吧，所以说求解误差函数E对于u的偏导数，只需要计算出δ即可。这也就是所谓的δ更新法则。
由于是反向传播算法，所以我们先计算输出神经元对应的δL

$δ L = f' (u L) ⊙ (y n - t n)$

再往回计算时（反向），每一层神经元对应的δl为:

$δ l = (W l + 1) T δ l + 1 ⊙ f' (u l)$

最后由计算出的δl来计算误差函数对于该层权值矩阵的每一个权值的导数。

$\partial E \partial W l = x l - 1 (δ l) T$

给一个更新率η，计算出权值矩阵的更新值：

$Δ W l = - η \partial E \partial W l$

使用该值对权值矩阵进行更新。

$(W l)' = W + Δ W l$

至此，一轮的反向传播结束。在计算的过程中会发现，图示中的计算步骤与文字说明的计算过程稍有不同。在计算δ时，图片中的描述未涉及到f′(ul)，实际上，它在最后的计算中是加了进去的，两者的计算结果是一样的。

卷积神经网络的反向传播算法(笔记)

全连接神经网络的反向传播算法

前向传播

反向传播

相关推荐