Tensorflow 优化器 optimizer
从下面的图片可以看出tensorflow提供的几种优化器。
下图是不同优化算法的损失曲面和时间演化的轮廓。
从上图看 SGD 并不是最快速的训练方法, 红色的线是 SGD, 但它到达学习目标的时间是在这些方法中最长的一种. 我们还有很多其他的途径来加速训练.
下图优化可视化,其中沿着不同维度的曲率具有不同的符号(一维向上和向下弯曲)。 请注意,SGD很难打破对称,被困在顶部。 相反,诸如RMSprop的算法在鞍形方向上将看到非常低的梯度。 由于RMSprop更新中的分母术语,这将提高沿此方向的有效学习率,从而帮助RMSProp进行。
动图来源 Alec Radford.