Adam优化算法

Adam算法的全称是Adaptive Moment Estimation

Adam算法基本上是momentum算法和RMSprop算法的结合。我们下面介绍一下这个算法

2.2.5 Adam优化算法

算法如图所示，注意图中 $V_{d w}^{c o r r e c t e d}$ 表示的是偏差修正。

这个算法中有许多的超参数，那么该如何选择超参数呢？

2.2.5 Adam优化算法

如图所示，学习率是我们需要调整的参数。 $β_{1}$ 是momentum的超参数，一般设置为0.9。 $β_{2}$ 的话Adam算法的发明者推荐使用0.999。这里的数一般设置成这个就挺好的了，业内人士很少去改变关于 $β$ 的参数。还有 $ε$ 也是如此。

2.2.5 Adam优化算法