误差反向传播(BP)算法

转载请标明出处：
https://seektech.github.io/2018/01/23/误差反向传播(BP)算法.html Miao LI (seektech)

误差反向传播算法是训练神经网络最常用且最基础的算法

这里以三层神经网络为基础，结合不同的准则函数和**（转移）函数对误差反向传播算法做出详细的计算

一、三层感知器

误差反向传播(BP)算法

网络描述：

训练数据输入输出对：{xki,tkj}，k表示第k个样本，k=1,2,⋯,n

输出层节点的输出：zkj

隐含层节点的输出：ykh

输入信号：xki

输入层端点数：d+1

输入层节点i至隐含层h的权重：wih

隐含层节点h至输出层j的权重：whj

目标：使z1≈t1,z2≈t2,⋯,zc≈tz

误差：E(w)=∑kJ(w)k，J(w)k表示单个样本的误差

每个样本所经历的计算：

对第k个样本，隐含层h节点的输入加权和为：

n e t k h = \sum i w i h x k i

经过隐含层的激励(f1)，隐含层节点h的输出为：

y k h = f 1 (n e t k h) = f 1 (\sum i w i h x k i)

输出层j节点的输入加权和为：

n e t k j = \sum h w h j y k h = \sum h w h j f 1 (n e t k h) = \sum h w h j f 1 (\sum i w i h x k i)

经过输出层的激励(f2)，输出层节点j的输出为：

z k j = f 2 (n e t k j) = f 2 (\sum h w h j f 1 (\sum i w i h x k i))

二、依赖复合函数链式求导计算

更新权重采用的是训练神经网络的δ规则(梯度下降):

w i j = w i j + Δ w i j

Δ w i j = - η \partial E (w) \partial w i j

隐含层至输出层：（激励函数为SoftMax时推导略有不同）

Δ w h j = - η \partial E (w) \partial w h j = - η \sum k \partial E (w) \partial z k j \partial z k j \partial n e t k j \partial n e t k j \partial w h j = - η \sum k f' 2 (n e t k j) \partial E (w) \partial z k j y k h

输入层至隐含层：

Δ w i h = - η \partial E (w) \partial w i h = - η \sum k, j \partial E (w) \partial z k j \partial z k j \partial n e t k j \partial n e t k j \partial y k h \partial y k h \partial n e t k h \partial n e t k h \partial w i h = - η \sum k, j \partial E (w) \partial z k j f' 2 (n e t k j) w h j f' 1 (n e t k h) x k i = - η \sum k ⎧ ⎩ ⎨ ⎪ ⎪ f' 1 (n e t k h) ⎧ ⎩ ⎨ ⎪ ⎪ \sum j \partial E (w) \partial z k j f' 2 (n e t k j) w h j ⎫ ⎭ ⎬ ⎪ ⎪ x k i ⎫ ⎭ ⎬ ⎪ ⎪

三、准则函数

1. MSE 误差平方和损失（最常用）

E (w) = \sum k J (w) k = 12 \sum k, j (t k j - z k j) 2

\partial E (w) \partial z k j = - (t k j - z k j)

2. 交叉熵损失

E c e (w) = \sum k J (w) k = \sum k, j t k j ln (t k j / z k j)

\partial E c e (w) \partial z k j = - t k j / z k j ​

3. HingeLoss损失

E h i n g e (w) = \sum k J (w) k = \sum k, j max {0, 1 - t k j z k j}

4. Minkowski损失

E m i n k ((w)) = \sum k J (w) k = \sum k, j | t k j - z k j | R, 1 \leq R < 2

四、激励函数

1. Sigmoid函数

f (s) = 1 1 + e - s

f' (s) = f (s) (1 - f (s))

2. SoftMax

f (n e t k j) = e n e t k j \sum j e n e t k j

f' 2 (n e t k j) = \partial z k m \partial n e t k j = {z k j (1 - z k j) - z k m z k j m = j m \neq j

3. 双曲正切函数

f (s) = e s + e - s e s + e - s

f' (s) = 1 - f 2 (s)

五、Case 1: MSE+Sigmoid+Sigmoid

准则函数：MSE，隐含层激励函数：Sigmoid，输出层激励函数：Sigmoid

MSE:

E (w) = \sum k J (w) k = 12 \sum k, j (t k j - z k j) 2

\partial E (w) \partial z k j = - (t k j - z k j)

Sigmoid:

f 1 (n e t k h) = 1 1 + e - n e t k h

f' 1 (n e t k h) = f 1 (n e t k h) (1 - f 1 (n e t k h)) = y k h (1 - y k h)

Sigmoid:

f 2 (n e t k j) = 1 1 + e - n e t k j

f' 2 (n e t k j) = f 2 (n e t k j) (1 - f 2 (n e t k j)) = z k j (1 - z k j)

隐含层至输出层：

Δ w h j = - η \sum k f' 2 (n e t k j) \partial E (w) \partial z k j y k h = η \sum k f' 2 (n e t k j) (t k j - z k j) y k h

误差反向传播(BP)算法

输入层至隐含层：

Δ w i h = - η \sum k ⎧ ⎩ ⎨ ⎪ ⎪ f' 1 (n e t k h) ⎧ ⎩ ⎨ ⎪ ⎪ \sum j \partial E (w) \partial z k j f' 2 (n e t k j) w h j ⎫ ⎭ ⎬ ⎪ ⎪ x k i ⎫ ⎭ ⎬ ⎪ ⎪ = η \sum k ⎧ ⎩ ⎨ ⎪ ⎪ f' 1 (n e t k h) ⎧ ⎩ ⎨ ⎪ ⎪ \sum j (t k i - z k j) f' 2 (n e t k j) w h j ⎫ ⎭ ⎬ ⎪ ⎪ x k i ⎫ ⎭ ⎬ ⎪ ⎪

误差反向传播(BP)算法

六、Case 2: MSE+Sigmoid+SoftMax

准则函数：MSE，隐含层激励函数：Sigmoid，输出层激励函数：SoftMax

MSE:

E (w) = \sum k J (w) k = 12 \sum k, j (t k j - z k j) 2

\partial E (w) \partial z k j = - (t k j - z k j)

Sigmoid:

f 1 (n e t k h) = 1 1 + e - n e t k h

f' 1 (n e t k h) = f 1 (n e t k h) (1 - f 1 (n e t k h)) = y k h (1 - y k h)

SoftMax

f 2 (n e t k j) = e n e t k j \sum i e n e t k i

f' 2 (n e t k j) = \partial z k m \partial n e t k j = {z k j (1 - z k j) - z k m z k j m = j m \neq j

隐含层至输出层：

这里切记不能直接带第二节中的公式，因为SoftMax**函数需要分情况讨论

Δ w h j = - η \partial E (w) \partial w h j = - η \sum k \partial E (w) \partial n e t k j \partial n e t k j \partial w h j = - η \sum k y k h \sum m = 1 c \partial E (w) \partial z k m \partial z k m \partial n e t k j = η \sum k y k h \sum m = 1 c (t k m - z k m) \partial z k m \partial n e t k j = η \sum k y k h ⎧ ⎩ ⎨ ⎪ ⎪ \sum m \neq j c (t k m - z k m) (- z k j z k m) + (t k j - z k j) z k j (1 - z k j) ⎫ ⎭ ⎬ ⎪ ⎪ = η \sum k y k h {\sum m = 1 c (t k m - z k m) (- z k j z k m) + (t k j - z k j) z k j}

输入层至隐含层：

这里切记不能直接带第二节中的公式，因为SoftMax**函数需要分情况讨论

Δ w i h = - η \partial E (w) \partial w i h = - η \sum k \partial E (w) \partial y k h \partial y k h \partial n e t k h \partial n e t k h \partial w i h = - η \sum k f' 1 (n e t k h) x k i \partial E (w) \partial y k h = - η \sum k x k i f' 1 (n e t k h) {\sum m = 1 c \partial E (w) \partial n e t k m n e t k m y k h} = - η \sum k x k i f' 1 (n e t k h) {\sum m = 1 c \partial E (w) \partial n e t k m w h m} = - η \sum k x k i f' 1 (n e t k h) {\sum m = 1 c w h m {\sum n = 1 c \partial E (w) z k n z k n \partial n e t k m}} = η \sum k x k i f' 1 (n e t k h) ⎧ ⎩ ⎨ ⎪ ⎪ \sum m = 1 c w h m ⎧ ⎩ ⎨ ⎪ ⎪ \sum n \neq m c (t k n - z k n) (- z k n z k m) + (t k m - z k m) z k m (1 - z k m) ⎫ ⎭ ⎬ ⎪ ⎪ ⎫ ⎭ ⎬ ⎪ ⎪ = η \sum k x k i f' 1 (n e t k h) {\sum m = 1 c w h m {\sum n = 1 c (t k n - z k n) (- z k n z k m) + (t k m - z k m) z k m}}

七、Case 3: 交叉熵+Sigmoid+SoftMax

准则函数：交叉熵，隐含层激励函数：Sigmoid，输出层激励函数：SoftMax ，其余步骤与第六节雷同

E c e (w) = \sum k J (w) k = \sum k, j t k j ln (t k j / z k j)

\partial E c e (w) \partial z k j = - t k j / z k j

误差反向传播(BP)算法

一、三层感知器

二、依赖复合函数链式求导计算

三、准则函数

四、激励函数

五、Case 1: MSE+Sigmoid+Sigmoid

六、Case 2: MSE+Sigmoid+SoftMax

七、Case 3: 交叉熵+Sigmoid+SoftMax

相关推荐