Batch Normalization
参考一:https://www.jianshu.com/p/86530a0a3935
参考二:http://www.mamicode.com/info-detail-2378483.html
我们都知道在train网络之前,会对数据进行归一化处理,为的是保持训练和测试数据的分布相同,而在神经网络内部,每一层我们都需要有输出和输出,除了对原始数据的标准化处理,在经过网络每一层计算后的数据,它们的分布是不同的。网络的训练,需要去学习适应不同的数据分布,明显造成的后果就是收敛慢,效果不佳。
另一方面,网络前面的参数变更,会随着网络的深度,其影响不断累积增大,所以说只要有某一层的数据分布发生变化,后面层的数据输入分布也会不同,结合前面说的,为了解决中间层数据分布改变的情况。
总的来说,bn的操作很简单,也很容易理解。就是在网络的每一层输入之前,做了一个归一化处理,就是作用于(wu+b),即bn(wu+b),然后再接**函数(非线性映射)。而且,很多论文的代码里,bn算作了独立的一层。由此实现,保持每一层的分布不变。
加入了可学习的γ和β,为什么是可学习的,感觉应该是让网络自己找到一个在正态变换后不破坏原特征分布的平衡状态。
在cnn中,batch_normalization就是取同一个channel上所有批次做处理: