【Deep Learning 】深度模型中的优化问题(七)之 Adam(自适应算法3)

本文是Deep Learning 之 最优化方法系列文章的 Adam(自适应算法3)方法。主要参考Deep Learning 一书。


以下节选自个人深度学习笔记。

内容整合来源于网络与个人理解。

 

 

Adam(自适应矩估计)

口Adam 这个名字来源于adaptive moment estimation, 自适应矩估计

口Adam本质上是带有动量项的RMSprop, 它利用梯度的一阶矩估计二阶矩估计动态调整每个参数的学习率

(注意:为二阶矩!)

【Deep Learning 】深度模型中的优化问题(七)之 Adam(自适应算法3)

 

碎碎念

① 结论:

1.Adam算法可以看做是修正后的Momentum+RMSProp算法

2.动量直接并入梯度一阶矩估计(指数加权)

3.Adam通常被认为对超参数的选择相当鲁棒

4.学习率建议为0.001。

 

 

② 再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。 

【Deep Learning 】深度模型中的优化问题(七)之 Adam(自适应算法3)

 

 

参考:

Deep Learning 最优化方法之Adam

其他:

深度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam