batch normalization 为什么有效?
4.1 Normalization 的权重伸缩不变性
从两方面来看,
1、权重伸缩不变性可以有效地提高反向传播的效率。
主要体现在对x求导。
2.权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率。
主要体现在对w求导。
意思是,如果某一次更新使得w变得很大,则lambada系数一定很大,那么梯度就减小了。在一定程度上体现了参数正则化,
不让参数过度增长。
4.2 Normalization 的数据伸缩不变性
另一种角度看,
前面是两个求导之间对比,下面这个角度是针对自己求导进行观察
当W很小的时候,其标准差也大不了哪去,比如W为0.0001,它的标准差能有多大呢?
当W很大的时候,那么它的标准差就有可能很大了,至少比W0.0001的时候大吧。
所以限制梯度体现在这里