人工神经网络:反向传播算法的数学基础(Part4)

文本翻译自briandolhansky的神经网络系列文章,本文是第四部分.
注: 此文章为译者初次尝试翻译, 加上非数学专业出身, 工作忙碌闲暇时间较少,因此在专业术语和词语表达上多有不当之处. 如有疑问欢迎评论交流.

目前为止,我们还没有看到神经网络强大的非线性能力 — 我们目前所使用的单层模型, 像多项逻辑斯地回归, 二项逻辑斯蒂回归均是线性模型. 这些单层模型的求导都很简单, 权重的输入可以直接从结果反推. 不过单层模型连在一起形成神经网络时, 又会如何.

权重的增加和结果的变化之间不再是线性关系, 任意一个节点的改变都会导致后面层上的节点的变化, 那么在神经网我们该如何计算所有权重的梯度值 ? – 反向传播算法应运而生.
反向传播算法的核心在于在所有可能的传播路径上迭代的使用链式求导法则. 随着神经网络尺寸的增到从输入到输入之间的路径指数级的增加, 神经网络算法的优势逐渐凸显, 它以动态规划算法的形式重复使用中间结果来计算梯度, 极大地加快了计算速度, 在此过程中我们将误差(cost)从输出传回输入, 这也是反向传播算法命名的由来. 反向传播与正向传播密切相关, 正向传播将输入向前传递至结果, 反向传播将误差向后传播回结果

许多介绍神经网络的文章直接给出通用用公式, 往往使得深入学习神经网络变得困难. 本文将通过手算梯度值来逐步深入推到公式,如此虽然增加了文章的长度, 但更容易让初学者上手, 这是我认为最好的学习反向传播算法的方式.

反向传播的基本规则

首先明确一点:训练神经网络的最终目标是找到权重值组合使得损失函数的值最小.

\partial E \partial w i \to j

结合随机梯度下降算法可以更新权重值:

w i \to j = w i \to j - η * \partial E \partial w i \to j

对于单个神经元节点, 连接方式总共有一下四种情形: 1.只有一个输入和一个输出. 2.有多个输入和一个输出, 3.有一个输入和多个输出. 4. 有多个输入和多个输出. 在以下的推导中我们可以得出多个输入和多个输出是相互独立的事件, 情况4可以由2和3合并得出.
对于每种情景下的梯度, 我将使用简单的多层神经网络进行求解, 归纳相应的反向传播算法通用法则. 最后, 我们将得到一个适用于任意神经网络通用的算法.

(1).单个输入和单个输出

假设神经网络的构成如下:

简单的单一传播路径神经网络

图中每个变量值得求解如下:

s j = w 1 * x i z j = σ (s j) = σ (w 1 * x j) s k = w 2 * z j z k = σ (s 2) = σ (w 2 * σ (w 1 * x i)) s o = w 3 * z k y i^= i o = w 3 * σ (w 2 * σ (w 1 * x i)) E = 12 (y i^- y i) 2 = 12 (w 3 * σ (w 2 * σ (w 1 * x i)) - y i) 2

本例很容易求得每个变量wi的倒数, 以下为手动求解步骤, 在此过程中, 不同变量的导数会用不同的颜色标记, 希望读者可以找出相应的规律. 首先, 让我们求出wk→0(提示: 结果yi^=wk→ozk为线性转换) :

\partial E \partial w k \to o = \partial \partial w k \to o 12 (y i^- y i) 2 = \partial \partial w k \to o 12 (w k \to o z k - y i) 2 = w k \to o z k \partial \partial w k \to o (w k \to o z k - y i) = y i^- y i (z k)

找出wj→k同样简单:

\partial E \partial w j \to k = \partial E \partial w j \to k (y i^- y i) 2 = (y i^- y i) (\partial \partial w j \to k (w k \to o σ (w j \to k z j) - y i)) = (y i^- y i) w k \to o σ (s k) σ (1 - s k) \partial \partial w j \to k (w j \to k . z j) = (y i^- y i) w k \to o (σ (s k) σ (1 - s k) (z j)

直接使用微分公式计算wi→j:

\partial E \partial w i \to j = \partial \partial w i \to j 12 (y i^- y i) 2 = (y i^- y i) (\partial \partial w i \to j (y i^- y i)) = (y i^- y i) (w k \to o) (\partial \partial w i \to j (σ (w j \to k σ (w i \to j x i))) = (y i^- y i) (w k \to o) (σ (s k) (1 - σ (s k)) (w j \to k) (\partial \partial w i \to j σ (w i \to j x i)) = (y i^- y i) (w k \to o) (σ (s k) (1 - σ (s k)) (w j \to k) (σ (s j) (1 - σ (s j))) x i

你可以能已经注意了固定的模式出现在求导过程中, 这一模式是构建反向传播算法的基础 —— 即在求解前一个层的神经元导数时, 我们会使用后面层级神经元的求导时计算得出的值. 这些值包括神经网络的错误的导数, 神经元k输出sk的加权导数, 神经元j输出sj的加权导数.
以上可以得出, 对于这个简单神经网络:

Δ w i \to j = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k))) w j \to k (σ (s j)) (1 - σ (s j)) (x i)] Δ w j \to k = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k)) (z j)] Δ w k \to o = - η [((̂ y i) - y i) (z k)]

(2).神经元存在多个输入

当一个神经元有多个输入时:

当一个神经元有多个输入时, 每个输入导数的求解相比与一个输入时有什么不同?wi→k的求解方法是否受wj→k的更新影响? wi→k的导数计算如下:

\partial E w i \to k = \partial w i \to k 12 (y i^- y i) 2 = (y i^- y i) (\partial w i \to k z k w k \to o) = (y i^- y i) (w k \to o) (\partial w i \to k σ (s k)) = (y i^- y i) ((σ (s k) (1 - σ (s k)) w k \to o) (\partial w i \to j (z i w i \to k + z j w j \to k)) = (y i^- y i) ((σ (s k) (1 - σ (s k)) w k \to o) z i

可以看出wi→k导数计算不受wj→k的影响, 得到求导的第一条法则:在同一个层级上, 每个神经元权重的求导各自独立, 互不影响. 本条规则比较直观, 易于理解. 权重的更新不依赖于本层其他神经元的权重值, 只依赖于后面层级神经元的权重值. 这条法则便于后向传播算法的求解.

(3).神经元存在多个输出

现在我们讨论一下当一个神经元有多个输出的情况.

与前一节的神经网络相比,该神经网络的新增了win→i这一部分, 这样神经元i便存在两个中间的继承者, 因此, 我们需要对起源于i的所有路径上的误差累积进行求和. 求导过程如下( σi(⋅) 表示神经元i的**函数):

\partial E w i n \to i = \partial w i n \to i 12 (y i^- y i) 2 = (y i^- y i) (\partial w i n \to i (z j w j \to o + z k w k \to o)) = (y i^- y i) (\partial w i n \to i (σ j (s j) w j \to o + σ k (s k) w k \to o)) = (y i^- y i) (w j \to o σ' j (s j) \partial w i n \to i s j + w k \to o σ' k (s k) \partial w i n \to i s k) = (y i^- y i) (w j \to o σ' j (s j) \partial w i n \to i z i w i \to j + w k \to o σ' k (s k) \partial w i n \to i (z i w i \to k)) = (y i^- y i) (w j \to o σ' j (s j) \partial w i n \to i σ i (s i) w i \to j + w k \to o σ' k (s k) \partial w i n \to i (σ j (s j) w i \to k)) = (y i^- y i) (w j \to o σ' j (s j) w i \to j σ' i (s i) \partial w i n \to i s i + w k \to o σ' k (s k) w i \to k σ' i (s i) \partial w i n \to i s j) = (y i^- y i) (w j \to o σ' j (s j) w i \to j σ' i (s i) + w k \to o σ' k (s k) w i \to k σ' i (s i)) x i

有两点需要注意, 首先得到我们的第二条求导原则:当有多个输出层时权重的求导依赖于每个输出路径上的误差的导数.
更重要的是我们可以推演出后向传播和前向传播之间的关系. 在后向传播时, 我们计算结果误差, 然后传递结果误差到每一个神经元, 得到加权后的误差值(译者注: 因为sj=σ(wjsj−1+b)是指sj−1的误差需要乘上wj, 即加权–wighted). 每到达一个神经元我们都是用加权的后向传播误差乘上该神经元的导数, 直到到达初始输入层X. 后向传播算法和前向传播算法类似, 都属于递归算法. 下一节中我将引入误差信号(error signal)这一概念, 这一概念帮助我们以一种简洁的方式重定义权重求导公式.

误差信号

一步一步推导出所有权重的导数相当繁琐, 尤其当神经网络中含有大量的神经元和隐含层时, 逐个更新更是不切实际. 在上一章节在误差向后传播的过程中具有一定规律, 固定的模式不断重现, 这有助与归纳出通用后向传播算法. 本章节我们引入误差信号的概念, 即误差在每一个神经元上的累加值. 为了简化过程便于理解, 假设样本数为1, 因此ŷ =yi^, 本节均使用ŷ .
神经元j的递归误差信号定义如下:

δ j = \partial E \partial s j

该公式计算神经元j对结果的误差变化的贡献, 即当j改变Δj时, 结果E的变化量的大小 – – 微积分中的导数. 后面可以看出在反向传播计算中 δj帮助我们极大的简化我们求解过程. 展开δj可以得到:

δ j = \partial E \partial s j = \partial \partial s j 12 (y ̂ - y) 2 = (y ̂ - y) \partial y ̂ \partial s j

假设j为输出层, ŷ =fj(sj)((fj(⋅)为sj的**函数), ∂ŷ ∂sj 等于f′j(sj), 从而δj=(ŷ −y)f′j(sj).
若神经元j为隐含层, 其输出神经元为k时(k∈outs(j)), 依据微分链式法则进一步展开∂ŷ ∂sj:

\partial y ̂ \partial s j = \partial y ̂ \partial z j \partial z j \partial s j = \partial y ̂ \partial z j f' j (s j)

注意∂ŷ zj的求解, 所有的k, k∈outs(j)的值都依赖于j. 根据在<3.一个神经元有多个输出>一节的结论可知, δzj求解依赖于每个输出路径上的误差. 具体分析, 对于每个输出k都有sk=zjwj→k, 并且同一层级上Sk的计算相互独立, 依据链式法则, 累加所有的神经元k∈outs(j)可以得出:

\partial y ̂ \partial s j = f' j (s j) \sum k \in outs (j) \partial y ̂ \partial s k \partial s k \partial z j = f' j (s j) \sum k \in outs (j) \partial y ̂ \partial s k w j \to k

将此式代入δj=(ŷ −y)∂ŷ ∂sj可得:

δ j = (y ̂ - y) f' j (s j) \sum k \in outs (j) \partial y ̂ \partial s k w j \to k

基于错误信号的定义可知, sk=(ŷ −y)∂y∂sk, 将上式的(ŷ −y)移至∑内, 我们可以得出一下的递归公式:

δ j = f' j (s j) δ k w j \to k

由此便得到计算后向传播误差的简洁形式, 最后要做的便是将上面的公式整合成一个通用表达式.

后向传播算法的一般形式

回顾第一节我们用到的神经网络:

该神经网络上所有错误误差的求解如下:

δ o δ k δ j = (y ̂ - y) (线 性 方 程 的 导 数 为 1) = δ o w k \to o σ (s k) (1 - σ (s k) = δ k w j \to k σ (s j) (1 - σ (s j)

同样权重更新的公式(节1.单个输入和单个输出):

Δ w i \to j = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k))) w j \to k (σ (s j)) (1 - σ (s j)) (x i)] Δ w j \to k = - η [(y i^- y i) (w k \to o (σ (s k)) ((1 - σ (s k)) (z j)] Δ w k \to o = - η [((̂ y i) - y i) (z k)]

带入错误信号得:

Δ w k \to o Δ w j \to k Δ w i \to j = - η δ 0 z k = - η δ k z j = - η δ j z i

当神经网络中神经元有多个输出的时:

错误误差的求解如下:

δ o δ k δ j δ i = (y ̂ - y) = δ o w k \to o σ (s k) (1 - σ (s k)) = δ k w j \to k σ (s j) (1 - σ (s j)) = σ (s i) (1 - σ (s i)) \sum k \in outs (i) δ k w i \to k

虽然我们没有推导出所有的权重更新公式, 但是利用信号误差可得权重更新公式(如果感兴趣的话你可以手算一下):

Δ W k \to o Δ w j \to o Δ w i \to k Δ w i \to j Δ w i n \to i = - η δ o z k = - η δ 0 z j = - η δ k z i = - η δ j z i = - η δ i x i

现在可以很清楚的得到权重更新的一般公式:Δwi→j=−ηδjzi.
最后要考虑的是使用批量数据算法(minibatch)更新梯度时, 公式变化情况. 通常每个样本都是独立的, 将所有样本的更新值累加起来便得到了一个权重的总更新值.(一般会除以样本数量N, 这样权重更新值不敏感于样本量的大小). 我们使用yi代表第i个样本, 将其作为上标带入上式中可得:

Δ w i \to j = - η N \sum y i δ (y i) j z (j i) j

由上可知,后向传播算法的一般公式计算由三部分组成:
1. 前向传播训练集, 计算每个s(yi)j和z(yi)j.
2. 计算每个样本yi神经元的误差信号δ(yi)j.如果j是输出层, δj=f′j(s(yi)j)(yi^−y). 否则j为隐含层, δj=f′j(s(yi)j)∑k∈outs(j)δ(yi)kwj→k.
3. 根据公式Δwi→j=−ηN∑yiδ(yi)jz(ji)j更新权重.

总结

希望通过本部分内容你可以全面的掌握后向传播算法的求解(译者注: 英文可以的朋友最好看原文 :-) 点击这里). 但是部分的公式的可编程性和扩展性仍然很差, 下一部分会拓展此公式成矩阵形式. 提供一个简单的神经网络模型, 并且用它来训练MNIST数据集.