Batch Normalization(BN)的简单介绍

Batch Normalization(BN)介绍

BN目的： 令一批（batch）数据对应的feature map的每一个维度（每一个channel）满足均值为0，方差为1的分布规律，通过该方法能够加速网络的收敛并提升准确率。
BN算法的步骤以及参数求解

μ,σ 是在正向传播过程中统计得到

γ,β 是在反向传播过程中训练得到
使用BN算法应该注意的问题：

1. 训练时要将traning参数设置为True，在验证时将trainning参数设置为False(因为训练时需要对每一批batch统计相关的参数，而在验证时，每一次只是输入1张图片，不需要统计相关的参数)。在pytorch中可通过创建模型的model.train()和model.eval()方法控制。

2.batch size尽可能设置大点，设置小后表现可能很糟糕，设置的越大求的均值和方差越接近整个训练集的均值和方差。

3.建议将bn层放在卷积层（Conv）和**层（例如Relu）之间，且卷积层不要使用偏置bias，因为没有用，参考下图推理，即使使用了偏置bias求出的结果也是一样的 $y_{i}^{b} = y_{i}$