Adam 和随机梯度下降的区别?

1、Adam 和随机梯度下降的区别?
一、SGD
1.1 对每一个待更新参数的求梯度,并在一定的学习率下按照梯度反方向更新参数。
1.2 但该方法存在显著的弊端,例如以下这样的损失函数:在不同的参数方向一方面学习率不应当一样,因为他们的梯度程度不同,一个x1方向梯度较大,x2方向梯度较小,但若以相同学习率,很容易受单个参数的影响而很难走到局部最优点。

Adam 和随机梯度下降的区别?

二、Adam

2.1 Adam 一方面动态的修改各参数的学习率,另一方面引入动量法,使得参数更新有更多的机会跳出局部最优。
2.2 关于动量法,图:当引入动量后下面的球有一定几率能够走到虚线部分甚至走出局部最优。
Adam 和随机梯度下降的区别?
2.3 关于指数加权移动平均:就是让当前t时间的值以一定的比例受前N个时间步的影响。
2.4 Adam 计算公式

计算动量(动量指数加权移动平均)
Adam 和随机梯度下降的区别?

对梯度做指数加权移动平均
Adam 和随机梯度下降的区别?

#偏差修正
Adam 和随机梯度下降的区别?

重新调整梯度
Adam 和随机梯度下降的区别?

更新参数
Adam 和随机梯度下降的区别?

欢迎加入人工智能学习圈:

Adam 和随机梯度下降的区别?