深度学习剖根问底: Adam优化算法理解

Momentum是为了对冲mini-batch带来的抖动。

RMSprop是为了对hyper-parameter进行归一,均方根反向传播(RMSProp)

这两个加起来就是Adam

看原始的RMSProp算法: 
深度学习剖根问底: Adam优化算法理解

再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。 
深度学习剖根问底: Adam优化算法理解