前向计算
含有数据输入层,1个以上隐藏层,1个输出层。各层神经元之间全连接,同一层的神经元之间无连接。

在图中,z(l)=W(l)⋅a(l−1)+b(l)a(l)=f(l)(z(l))
其中f(⋅)是激励函数,a是该层的输出值
变量关系:
z1=g1(x,W1)z2=g2(z1,W2)⋯zl−1=gl−1(zl−2,Wl−1)zl=gl(zl−1,Wl)zl+1=gl+1(zl,Wl+1)⋯zL=gL(zL−1,WL)y=fL(zL)J(W,y)
变量依赖:
J(W,y)与x的依赖关系:J(W,y)=J(f(gL(...g2(g1(x,W1),W2)...,WL))
反向传播
目标是最小化损失函数,通过梯度下降:
W(l)=W(l)−α∂W(l)∂J(W,b)=W(l)−α∂W(l)∂N1∑i=1NJ(W,b;x(i),y(i))b(l)=b(l)−α∂b(l)∂J(W,b)=b(l)−α∂b(l)∂N1∑i=1NJ(W,b;x(i),y(i))