batch normalization 为什么有效?

 

4.1 Normalization 的权重伸缩不变性

batch normalization 为什么有效?

 

从两方面来看,

1、权重伸缩不变性可以有效地提高反向传播的效率

      主要体现在对x求导。

2.权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率。

     主要体现在对w求导。

    意思是,如果某一次更新使得w变得很大,则lambada系数一定很大,那么梯度就减小了。在一定程度上体现了参数正则化,

    不让参数过度增长。

 

4.2 Normalization 的数据伸缩不变性

batch normalization 为什么有效?

 

 

 

 

另一种角度看,

前面是两个求导之间对比,下面这个角度是针对自己求导进行观察

batch normalization 为什么有效?

当W很小的时候,其标准差也大不了哪去,比如W为0.0001,它的标准差能有多大呢?

当W很大的时候,那么它的标准差就有可能很大了,至少比W0.0001的时候大吧。

所以限制梯度体现在这里