batch size浅谈

Batch Size的概念：每个Batch（批次）的大小。
例如所有训练集有1000个样本，每把1000个Sample跑完就是一个epoch。那么在一个epoch中，同时取多少个sample进行训练，就是batch size。

当今神经网络的训练中，所需要的训练集是非常庞大的，因此我们没办法一次性把所有训练集放进内存或显存中，统一训练。
在同时训练的数量差别上，分三种类型：

第一种情况是极端的每次只同时训练一个样本，第三种情况是极端的每次同时训练所有样本。
通常会在两者取折中，以一个mini batch的方式进行训练。而mini batch的大小即batch size。

Batch Size越大，相对于训练集的偏差（bias）则越小，则每次优化的方向更贴近整体训练集的大方向。
反观BatchSize=1的情况下，每次训练的偏差都较大，模型训练的过程容易抖动（Zig-zag），且训练的速度变慢。

在目前基本属于标配的Batch Normalization组件，是在每个Batch下的Channel进行归一化，且根据论文Group Normalization的实验表明，Batch Size的增大是有助于含BN层的模型优化的。
batch size浅谈

Batch Size虽越大越好，但通常会使用 2 n 2^n 2n 作为Size。因为GPU的物理处理器通常是 2 n 2^n 2n 个，这样Samples可以和GPU的物理处理器对齐，最大化使用GPU的计算资源。