BP中权值更新

ReLU 的缺点:
训练的时候很”脆弱”,很容易就”die”了
例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有**现象了,那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。

BP算法中:
有时是
BP中权值更新
有时是:
BP中权值更新
这是根据损失函数而定的。以平方损失来说,若损失函数(误差函数)是:
BP中权值更新
对应更新规则是:
BP中权值更新
若损失函数(误差函数)是:
BP中权值更新
对应更新规则是:
BP中权值更新
式中,d是标签,y是网络的输出。
BP中权值更新
下边这段解释了为什么这样,链接是:https://blog.****.net/hrkxhll/article/details/80395033
BP中权值更新

若换成交叉熵损失,目前还不是很清楚。