large batchsize对收敛过程的影响

分类: 文章 • 2025-05-28 19:25:17

使用large-batch训练得到的网络具有较差的泛化能力。使用large-batch的情况下容易收敛成“sharp minimizers”，使其的泛化能力差。batch_size太大，相邻mini-batch间的差异相对过大，那么相邻两次迭代的梯度震荡情况会比较严重，不利于收敛。就如下图示的后半部分一样。