文章中的英文描述,公式以及图片,均来自吴恩达深度学习课程的课后作业
∂z2(i)∂J=m1(a[2](i)−y(i))
∂W2∂J=∂z2(i)∂Ja[1](i)T
∂b2∂J=∑i∂z2(i)∂J
∂z1(i)∂J=W2T∂z2(i)∂J∗(1−a[1](i)2)
∂W1∂J=∂z1(i)∂JXT
∂b1∂Ji=∑i∂z1(i)∂J
下图是反向传播时的梯度计算,输出层**函数为Sigmoid函数,隐藏层的**函数是tanh()
,右侧是对应的向量化实现。
