神经网络-误差反向传播算法 BP算法

BP算法学习笔记

1 学习基础–神经网络的基本原理和前向过程

​ 如下图所示,这时一个简单的神经网络模型,通过这样一个模型我们就可以完成一些工作。例如我们输入三个数据,a1表示一个公司的银行存款,a2表示所拥有的固定资产估值,a3表示这个人最近一个月的利润,out1表示这是状态良好,out2表示它状态不好。现在我们要通过这个网络来判断,我们是否给这个公司发放贷款。

神经网络-误差反向传播算法 BP算法
​ 现在我们先明确一下图中参数的意义:w表示权重,b表示偏置,下面是基本计算步骤。
z11=a1w1,11+a2w2,11+a3w3,11+b11z21=a1w1,21+a2w2,21+a3w3,21+b21h11=g(z11)h21=g(z21)z12=h11w1,12+h21w1,22+b12z22=h11w2,12+h21w2,22+b22out1=g(z12)out1=g(z22) z^1_1=a_1*w^1_{1,1}+a_2*w^1_{2,1}+a3*w^1_{3,1} +b^1_1 \\ z^1_2=a_1*w^1_{1,2}+a_2*w^1_{2,2}+a3*w^1_{3,2} +b^1_2 \\ h^1_1 = g(z^1_1) \\ h^1_2 = g(z^1_2) \\ z^2_1=h^1_1*w^2_{1,1}+h^1_2*w^2_{1,2}+b^2_1 \\ z^2_2=h^1_1*w^2_{2,1}+h^1_2*w^2_{2,2}+b^2_2 \\ out_1 = g(z^2_1) \\ out_1 = g(z^2_2)
​ 其中 g(x)g(x) 是**函数,**函数有多种可以选择,其数学意义是使我们的网络从线性网络到非线性网络,因为多数问题都是非线性的,至于详细原因分析见:未完成,在MINST数据集判断在我们使用ReLU函数作为**函数。
f(x)={xifx>00ifx0 f(x) = \begin{cases} x & if & x >0 \\ 0 & if & x \leqslant 0 \end{cases}
​ 现在通过这个网络设置一组合理的偏置和权重就能使用这个网络帮我们做出决定。最长用到的比如我们有一组手写数组的照片,我们可以设定一组合适的值来判断这个数字是多少。这个就是新手入门必学的MINST手写数据集判断了。在下一篇中会用Python和这个数据集来实现。

​ 那我们的问题就是找到这样一组合适的数据。这个方法就是BP算法了(Error Back Propagation 误差反向传播算法)

2反向传播的基本原理

​ 反向传播中主要用到两个原理,链式求导法则和偏导数。

2.1概述

​ 反向传播算法的全称是误差反向传播算法,其本质通过总的误差函数对每一个权重和偏置求偏导数,再通过偏导数更新权值和偏置,多次重复此步骤以找到最佳的偏置和权重值。(其原理是偏导数反应了某个函数值对整体的影响程度,同时两个偏导数刚好构成我们误差函数的梯度,而沿梯度方向函数最容易找到最小值,误差函数的最小值可不就是误差最小了吗,误差最小不就是我们找到最佳的一组权值和偏置了吗)

2.2误差函数

​ 误差函数也是有多种可以选择的,至于详细分析见:未完成 。在MINST数据集判断在我们使用均方误差函数作为误差函数。其形式如下:
L=12i(outitargeti)2 L=\frac 1 2 \sum_i (out_i - target_i)^2
​ target 表示已知的真确结果。

2.3偏导数和梯度

​ 现在我们再看误差函数 L ,此时我们将此函数的w(权值)和 b (偏置)作为变量(其他值都是系数)。则我们有构成函数:
L=f(W,B) L=f(W,B)
​ 依照上图给出的示例,此时有一个由10个权值和4个偏置作为变量构成的函数。现在来明确一下梯度的概念:对于二位函数 f(x,y)f(x,y) 他的梯度表示为 =(fx,fy)\nabla = (\frac {∂f}{∂x}, \frac {∂f}{∂y}) ,而我们都知道,沿着梯度方向函数值下降速度最快。关于导数,偏导数,梯度的具体分析见未完成。那么对于误差函数,我们自然是希望它的函数值为0最好了,所以我们就要求误差函数的梯度,然后沿着梯度方向更新变量取值(即选择权值和偏置的值)。则误差函数的梯度为:
=(Lw1,11,Lw2,11,Lw3,11,Lw1,21,Lw2,21,Lw3,21,Lw1,12,Lw2,12,Lw1,22,Lw2,22,Lb11,Lb21,Lb12,Lb22) \nabla=(\frac {∂L}{∂w^1_{1,1}},\frac {∂L}{∂w^1_{2,1}},\frac {∂L}{∂w^1_{3,1}},\frac {∂L}{∂w^1_{1,2}},\frac {∂L}{∂w^1_{2,2}},\frac {∂L}{∂w^1_{3,2}},\frac {∂L}{∂w^2_{1,1}},\frac {∂L}{∂w^2_{2,1}},\frac {∂L}{∂w^2_{1,2}},\frac {∂L}{∂w^2_{2,2}},\frac {∂L}{∂b^1_{1}},\frac {∂L}{∂b^1_{2}},\frac {∂L}{∂b^2_{1}},\frac {∂L}{∂b^2_{2}})

2.4 BP算法

​ 现在我们学习BP算法的前置知识都具备了,我们开始推到整个过程。

2.4.1 输出层推导

​ 输出层需要计算的偏导 Lw1,12,Lw2,12,Lw1,22,Lw2,22,Lb12,Lb22\frac {∂L}{∂w^2_{1,1}},\frac {∂L}{∂w^2_{2,1}},\frac {∂L}{∂w^2_{1,2}},\frac {∂L}{∂w^2_{2,2}},\frac {∂L}{∂b^2_{1}},\frac {∂L}{∂b^2_{2}} ,我们依次计算这些值。
Lw1,12=Lout1×out1z12×z12w1,12Lw1,22=Lout2×out2z22×z22w1,22Lw2,12=Lout1×out1z12×z12w2,12Lw2,22=Lout2×out2z22×z22w2,22Lb12=Lout2×out2z12×z12b12Lb22=Lout2×out2z22×z22b22 \frac {∂L}{∂w^2_{1,1}}=\frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1}\times \frac {∂z^2_1}{∂w^2_{1,1}}\\\frac {∂L}{∂w^2_{1,2}}=\frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2}\times \frac {∂z^2_2}{∂w^2_{1,2}}\\\frac {∂L}{∂w^2_{2,1}}=\frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1}\times \frac {∂z^2_1}{∂w^2_{2,1}}\\\frac {∂L}{∂w^2_{2,2}}=\frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2}\times \frac {∂z^2_2}{∂w^2_{2,2}}\\\frac {∂L}{∂b^2_{1}}=\frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_1}\times \frac {∂z^2_1}{∂b^2_{1}}\\\frac {∂L}{∂b^2_{2}}=\frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2}\times \frac {∂z^2_2}{∂b^2_{2}}
​ 将这些公式总结到一起表示如下
Lwm,nL=Loutn×outnznL×znLwm,nL=Loutn×outnznL×hmLLbnL=Loutn×outnznL×znLbnL=Loutn×outnznL \frac {∂L}{∂w^L_{m,n}}= \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n} \times \frac {∂z^L_n}{∂w^L_{m,n}} =\colorbox{aqua}{$ \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n} $} \times h^L_m \\ \frac {∂L}{∂b^L_{n}}= \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n} \times \frac {∂z^L_n}{∂b^L_{n}} \quad=\quad \colorbox{aqua}{$ \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n} $} \qquad
​ 令 δnL=Loutn×outnznL\delta^L_n = \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n} 则上式化简为:
Lwm,nL=δnL×hmL(式1-1) \tag{式1-1} \frac {∂L}{∂w^L_{m,n}}=\delta^L_n \times h^L_m

LbnL=δnL(式1-2) \tag{式1-2}\frac {∂L}{∂b^L_{n}}=\delta^L_n \qquad\qquad

2.4.2 隐藏层推导

​ 隐藏层需要计算 Lw1,11,Lw2,11,Lw3,11,Lw1,21,Lw2,21,Lw3,21,Lb11,Lb21\frac {∂L}{∂w^1_{1,1}},\frac {∂L}{∂w^1_{2,1}},\frac {∂L}{∂w^1_{3,1}},\frac {∂L}{∂w^1_{1,2}},\frac {∂L}{∂w^1_{2,2}},\frac {∂L}{∂w^1_{3,2}},\frac {∂L}{∂b^1_{1}},\frac {∂L}{∂b^1_{2}} ,依次计算如下:
Lw1,11=Lout1×out1z12×z12h11×h11z11×z11w1,11+Lout2×out2z22×z22h11×h11z11×z11w1,11Lw2,11=Lout1×out1z12×z12h11×h11z11×z11w2,11+Lout2×out2z22×z22h11×h11z11×z11w2,11Lw3,11=Lout1×out1z12×z12h11×h11z11×z11w3,11+Lout2×out2z22×z22h11×h11z11×z11w3,11Lw1,21=Lout1×out1z12×z12h21×h21z21×z21w1,21+Lout2×out2z22×z22h21×h21z21×z21w1,21Lw2,21=Lout1×out1z12×z12h21×h21z21×z21w2,21+Lout2×out2z22×z22h21×h21z21×z21w2,21Lw3,21=Lout1×out1z12×z12h21×h21z21×z21w3,21+Lout2×out2z22×z22h21×h21z21×z21w3,21Lb11=Lout1×out1z12×z12h11×h11z11×z11b11+Lout2×out2z22×z22h11×h11z11×z11b11Lb21=Lout1×out1z12×z12h21×h21z21×z21b21+Lout2×out2z22×z22h21×h21z21×z21b21 \frac {∂L}{∂w^1_{1,1}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{1,1}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{1,1}} \\ \frac {∂L}{∂w^1_{2,1}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{2,1}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{2,1}} \\ \frac {∂L}{∂w^1_{3,1}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{3,1}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{3,1}} \\ \frac {∂L}{∂w^1_{1,2}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂w^1_{1,2}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂w^1_{1,2}} \\ \frac {∂L}{∂w^1_{2,2}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂w^1_{2,2}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂w^1_{2,2}} \\ \frac {∂L}{∂w^1_{3,2}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂w^1_{3,2}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂w^1_{3,2}} \\ \frac {∂L}{∂b^1_{1}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂b^1_{1}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂b^1_{1}} \\ \frac {∂L}{∂b^1_{2}} = \frac {∂L}{∂out_1} \times \frac {∂out_1}{∂z^2_1} \times \frac {∂z^2_1}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂b^1_{2}} + \frac {∂L}{∂out_2} \times \frac {∂out_2}{∂z^2_2} \times \frac {∂z^2_2}{∂h^1_2} \times \frac {∂h^1_2}{∂z^1_2} \times \frac {∂z^1_2}{∂b^1_{2}}
​ 整理化简这些式子(以 w1,11w^1_{1,1} 为例)
Lw1,11=i=1,2Louti×outiziL×ziLh11×h11z11×z11w1,11 \frac {∂L}{∂w^1_{1,1}} = \sum_{i=1,2} \frac {∂L}{∂out_i} \times \frac {∂out_i}{∂z^L_i} \times \frac {∂z^L_i}{∂h^1_1} \times \frac {∂h^1_1}{∂z^1_1} \times \frac {∂z^1_1}{∂w^1_{1,1}}

Lwm,nl=i=1,2Louti×outizil+1×zil+1hnl×hnlznl×znlwm,nl=i=1,2δil+1×zil+1hnl×hnlznl×znlwm,nl=i=1,2δil+1×wn,il+1×hnlznl×znlwm,nl=i=1,2δil+1×wn,il+1×δ(znl)×am \frac {∂L}{∂w^l_{m,n}} = \sum_{i=1,2}\frac {∂L}{∂out_i} \times \frac {∂out_i}{∂z^{l+1}_i} \times \frac {∂z^{l+1}_i}{∂h^l_n}\times \frac {∂h^l_n}{∂z^l_n}\times \frac {∂z^l_n}{∂w^l_{m,n}}\\=\sum_{i=1,2}\delta^{l+1}_i\times \frac {∂z^{l+1}_i}{∂h^l_n}\times \frac {∂h^l_n}{∂z^l_n}\times \frac {∂z^l_n}{∂w^l_{m,n}}\qquad\\=\sum_{i=1,2}\delta^{l+1}_i\times w^{l+1}_{n,i}\times \frac {∂h^l_n}{∂z^l_n}\times \frac {∂z^l_n}{∂w^l_{m,n}}\qquad\quad\\=\colorbox{aqua}{$\sum_{i=1,2}\delta^{l+1}_i\times w^{l+1}_{n,i}\times \delta'(z^l_n)$}\times a_m \qquad\qquad

​ 注:δ(znl)=hnlznl\delta'(z^l_n) = \frac {∂h^l_n}{∂z^l_n}

​ 同理可以求得:
Lwnl=i=1,2δiL×wn,il+1×δ(znl) \frac {∂L}{∂w^l_{n}} = \colorbox{aqua}{$ \sum_{i=1,2}\delta^L_i \times w^{l+1}_{n,i} \times \delta'(z^l_n) $}

​ 令 δnl=i=1,2δiL×wn,il+1×δ(znl)\delta^l_n=\sum_{i=1,2}\delta^L_i \times w^{l+1}_{n,i} \times \delta'(z^l_n) 则得到
lwm,nl=δnl×am(式2-1) \tag{式2-1} \frac {∂l}{∂w^l_{m,n}}=\delta^l_n \times a_m

Lbnl=δnl(式2-2) \tag{式2-2}\frac {∂L}{∂b^l_{n}}=\delta^l_n \quad\qquad

​ 将所有公式总结如下:
Lwm,nL=δnL×hmL1(式1-1) \tag{式1-1} \frac {∂L}{∂w^L_{m,n}}=\delta^L_n \times h^{L-1}_m

LbnL=δnL(式1-2) \tag{式1-2}\frac {∂L}{∂b^L_{n}}=\delta^L_n \qquad

δnL=Loutn×outnznL \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\delta^L_n = \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n}

lwm,nl=δnl×am(式2-1) \tag{式2-1} \frac {∂l}{∂w^l_{m,n}}=\delta^l_n \times a_m

Lbnl=δnl(式2-2) \tag{式2-2}\frac {∂L}{∂b^l_{n}}=\delta^l_n \quad\qquad

δnl=i=1,2δil+1×wn,il+1×δ(znl) \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\delta^l_n=\sum_{i=1,2}\delta^{l+1}_i \times w^{l+1}_{n,i} \times \delta'(z^l_n)

​ 从中可以看出,我们要求误差函数的梯度,只需求出 δnL\delta^L_nδnl\delta^l_n 就可以了。所以我们用的公式就是这两个了
δnL=Loutn×outnznL(输出层误差公式) \tag{输出层误差公式} \delta^L_n = \frac {∂L}{∂out_n} \times \frac {∂out_n}{∂z^L_n} \qquad\quad

δnl=i=1,2δil+1×wn,il+1×δ(znl)(隐藏层误差公式) \tag{隐藏层误差公式}\delta^l_n=\sum_{i=1,2}\delta^{l+1}_i \times w^{l+1}_{n,i} \times \delta'(z^l_n)

​ 现在我们可以看明白为什么叫反向传播了,输出层的 δL\delta^L 在输出隐藏层误差计算时需要使用,所以整个过程只能从后往前传播。

2.4.3 权值和偏置更新

​ 依据公式计算出误差之后就是更新权值和偏置了。

​ 权值更新:
wm,nl=wm,nlδnl×am×η(隐藏层权值更新) \tag{隐藏层权值更新} w^l_{m,n} = w^l_{m,n} -\delta^l_n \times a_m \times \eta

wm,nL=wm,nLδnL×hmL1×η(输出层权值更新) \tag{输出层权值更新} w^L_{m,n} = w^L_{m,n} -\delta^L_n \times h^{L-1}_m \times \eta

bnl=bnlδnl×η(隐藏层权值更新) \tag{隐藏层权值更新} b^l_n = b^l_n - \delta^l_n \times \eta

bnL=bnLδnL×η(输出层权值更新) \tag{输出层权值更新} b^L_n = b^L_n - \delta^L_n \times \eta

注:η\eta 表示学习效率,学习效率大运算结果容易反复横跳,太小就会导致学下效率低下。具体学习效率分析见未完成

​ 至此一个完整的BP算法过程已经完成。

2.5 矩阵表示BP算法

​ 隐藏层权值矩阵
w1=[w1,11w1,21w2,11w2,21w3,11w3,21] w_1 = \begin{bmatrix}w^1_{1,1} & w^1_{1,2} \\w^1_{2,1} & w^1_{2,2} \\w^1_{3,1} & w^1_{3,2}\end{bmatrix}
​ 输出层权值矩阵
w2=[w1,12w1,22w2,12w2,22] w_2 = \begin{bmatrix}w^2_{1,1} & w^2_{1,2} \\w^2_{2,1} & w^2_{2,2} \end{bmatrix}
​ 输入矩阵
a=[a1a2a3] a=\begin{bmatrix}a_1 \\a_2 \\a_3\end{bmatrix}
​ 隐藏层矩阵
h=[h11h21]z1=[z11z21] h=\begin{bmatrix}h^1_1 \\h^1_2\end{bmatrix}\qquad z^1=\begin{bmatrix}z^1_1 \\z^1_2\end{bmatrix}
​ 输出层矩阵
out=[out1out2]z2=[z12z22] out = \begin{bmatrix}out_1 \\out_2\end{bmatrix}\qquad z^2=\begin{bmatrix}z^2_1 \\z^2_2\end{bmatrix}
​ 输出层误差
δL=Lout×outzL(输出层误差矩阵表示) \tag{输出层误差矩阵表示} \delta^L = \frac {∂L}{∂out} \times \frac {∂out}{∂z^L}
​ 所以隐藏层误差表示为
δl=wl+1×δl+1×δ(zl)(隐藏层误差矩阵表示) \tag{隐藏层误差矩阵表示}\delta^l=w_{l+1} \times\delta^{l+1} \times \delta'(z^l)
​ 注:有些案例写道 $ {w_{l+1}}^T$ 这是因为在定义下标时表示的方式不同引起的。我的下标规则是下标第一个值表示它的上一个目标在一列中所处的位置,下标第二个值表示它的下一个目标在该列中的位置。例如 w3,11w^1_{3,1} 表示它是第1层的权值(上标),它从第一列的第3个元素(下标第一个值)指向第二列的第1个元素(下标第二个值)

​ 权值更新如下:
wL=wLδL×hL1×η(输出层权值更新) \tag{输出层权值更新}w^L = w^L - \delta^L \times h^{L-1} \times \eta

bL=bLδL×η(输出层偏置更新) \tag{输出层偏置更新}b^L = b^L - \delta^L \times \eta

wl=wlδl×al×η(隐藏层权值更新) \tag{隐藏层权值更新}w^l = w^l - \delta^l \times a^{l} \times \eta

bl=blδl×η(隐藏层偏置更新) \tag{隐藏层偏置更新}b^l = b^l - \delta^l \times \eta

​ 现在所有理论知识已经完成,但是还有两个缺点:

  • ​ 最终的出的公式将输入层和隐藏层分开了写,这样在编程的时候并不方便

  • ​ 现在的情况是基于只有一个隐藏层的网络进行的,在面对多层网络的时候还需再多考虑一点。

    针对这样的情况我重新定义我们的表示方法,如下图示:

神经网络-误差反向传播算法 BP算法

​ 此时则有
δl={lal×alzlifl=Lwl+1×δl+1×δ(zl)others(误差矩阵表示) \tag{误差矩阵表示}\delta^l=\begin{cases}\frac {∂l}{∂a^l} \times \frac {∂a^l}{∂z^l} & if \quad l=L\\w_{l+1} \times\delta^{l+1} \times \delta'(z^l) & \quad others\end{cases}
​ 权值和偏置更新则有更新则有
wl=wlδl×al×η(权值更新) \tag{权值更新}w^l = w^l - \delta^l \times a^{l} \times \eta

bl=blδl×η(偏置更新) \tag{偏置更新}b^l = b^l - \delta^l \times \eta

各位大哥最近下载资源没有C币了,如果对你有帮助求赏一个C币