梯度优化算法Adam(续)
进一步优化梯度下降
现在我们要讨论用于进一步优化梯度下降的各种算法。
1. 动量梯度下降法(Momentum)
SGD方法中的高方差振荡使得网络很难稳定收敛,所以有研究者提出了一种称为动量(Momentum)的技术,通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。换句话说,这种新方法将上个步骤中更新向量的分量’γ’添加到当前更新向量。
V(t)=γV(t−1)+η∇(θ).J(θ)
最后通过θ=θ−V(t)来更新参数。
动量项γ通常设定为0.9,或相近的某个值。
这里的动量与经典物理学中的动量是一致的,就像从山上投出一个球,在下落过程中收集动量,小球的速度不断增加。
在参数更新过程中,其原理类似:
1)使网络能更优和更稳定的收敛;
2)减少振荡过程。
当其梯度指向实际移动方向时,动量项γ增大;当梯度与实际移动方向相反时,γ减小。这种方式意味着动量项只对相关样本进行参数更新,减少了不必要的参数更新,从而得到更快且稳定的收敛,也减少了振荡过程。
2. 加速梯度下降法(Nesterov Momentum)
一位名叫Yurii Nesterov研究员,认为动量方法存在一个问题:
如果一个滚下山坡的球,盲目沿着斜坡下滑,这是非常不合适的。一个更聪明的球应该要注意到它将要去哪,因此在上坡再次向上倾斜时小球应该进行减速。
实际上,当小球达到曲线上的最低点时,动量相当高。由于高动量可能会导致其完全地错过最小值,因此小球不知道何时进行减速,故继续向上移动。
Yurii Nesterov在1983年发表了一篇关于解决动量问题的论文,因此,我们把这种方法叫做Nestrov梯度加速法。
在该方法中,他提出先根据之前的动量进行大步跳跃,然后计算梯度进行校正,从而实现参数更新。这种预更新方法能防止大幅振荡,不会错过最小值,并对参数更新更加敏感。
Nesterov梯度加速法(NAG)是一种赋予了动量项预知能力的方法,通过使用动量项γV(t−1)来更改参数θ。通过计算θ−γV(t−1),得到下一位置的参数近似值,这里的参数是一个粗略的概念。因此,我们不是通过计算当前参数θ的梯度值,而是通过相关参数的大致未来位置,来有效地预知未来:
V(t)=γV(t−1)+η∇(θ)J( θ−γV(t−1) ),
然后使用θ=θ−V(t)来更新参数。
现在,我们通过使网络更新与误差函数的斜率相适应,并依次加速SGD,也可根据每个参数的重要性来调整和更新对应参数,以执行更大或更小的更新幅度。
3. Adagrad方法
Adagrad方法是通过参数来调整合适的学习率η,对稀疏参数进行大幅更新和对频繁参数进行小幅更新。因此,Adagrad方法非常适合处理稀疏数据。
在时间步长中,Adagrad方法基于每个参数计算的过往梯度,为不同参数θ设置不同的学习率。
先前,每个参数θ(i)使用相同的学习率,每次会对所有参数θ进行更新。在每个时间步t中,Adagrad方法为每个参数θ选取不同的学习率,更新对应参数,然后进行向量化。为了简单起见,我们把在t时刻参数θ(i)的损失函数梯度设为g(t,i)。
图3:参数更新公式
Adagrad方法是在每个时间步中,根据过往已计算的参数梯度,来为每个参数θ(i)修改对应的学习率η。
Adagrad方法的主要好处是,不需要手工来调整学习率。大多数参数使用了默认值0.01,且保持不变。
Adagrad方法的主要缺点是,学习率η总是在降低和衰减。
因为每个附加项都是正的,在分母中累积了多个平方梯度值,故累积的总和在训练期间保持增长。这反过来又导致学习率下降,变为很小数量级的数字,该模型完全停止学习,停止获取新的额外知识。
因为随着学习速度的越来越小,模型的学习能力迅速降低,而且收敛速度非常慢,需要很长的训练和学习,即学习速度降低。
另一个叫做Adadelta的算法改善了这个学习率不断衰减的问题。
4. AdaDelta方法
这是一个AdaGrad的延伸方法,它倾向于解决其学习率衰减的问题。Adadelta不是累积所有之前的平方梯度,而是将累积之前梯度的窗口限制到某个固定大小w。
与之前无效地存储w先前的平方梯度不同,梯度的和被递归地定义为所有先前平方梯度的衰减平均值。作为与动量项相似的分数γ,在t时刻的滑动平均值Eg⊃2;仅仅取决于先前的平均值和当前梯度值。
Eg⊃2;=γ.Eg⊃2;+(1−γ).g⊃2;(t),其中γ设置为与动量项相近的值,约为0.9。
Δθ(t)=−η⋅g(t,i).
θ(t+1)=θ(t)+Δθ(t)
图4:参数更新的最终公式
AdaDelta方法的另一个优点是,已经不需要设置一个默认的学习率。
目前已完成的改进
1)为每个参数计算出不同学习率;
2) 也计算了动量项momentum;
3)防止学习率衰减或梯度消失等问题的出现。
还可以做什么改进?
在之前的方法中计算了每个参数的对应学习率,但是为什么不计算每个参数的对应动量变化并独立存储呢?这就是Adam算法提出的改良点。
Adam算法
Adam算法即自适应时刻估计方法(Adaptive Moment Estimation),能计算每个参数的自适应学习率。这个方法不仅存储了AdaDelta先前平方梯度的指数衰减平均值,而且保持了先前梯度M(t)的指数衰减平均值,这一点与动量类似:
M(t)为梯度的第一时刻平均值,V(t)为梯度的第二时刻非中心方差值。
图5:两个公式分别为梯度的第一个时刻平均值和第二个时刻方差
则参数更新的最终公式为:
图6:参数更新的最终公式
其中,β1设为0.9,β2设为0.9999,ϵ设为10-8。
在实际应用中,Adam方法效果良好。与其他自适应学习率算法相比,其收敛速度更快,学习效果更为有效,而且可以纠正其他优化技术中存在的问题,如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。
对优化算法进行可视化
图8:对鞍点进行SGD优化
从上面的动画可以看出,自适应算法能很快收敛,并快速找到参数更新中正确的目标方向;而标准的SGD、NAG和动量项等方法收敛缓慢,且很难找到正确的方向。
结论
我们应该使用哪种优化器?
在构建神经网络模型时,选择出最佳的优化器,以便快速收敛并正确学习,同时调整内部参数,最大程度地最小化损失函数。
Adam在实际应用中效果良好,超过了其他的自适应技术。
如果输入数据集比较稀疏,SGD、NAG和动量项等方法可能效果不好。因此对于稀疏数据集,应该使用某种自适应学习率的方法,且另一好处为不需要人为调整学习率,使用默认参数就可能获得最优值。
如果想使训练深层网络模型快速收敛或所构建的神经网络较为复杂,则应该使用Adam或其他自适应学习速率的方法,因为这些方法的实际效果更优。
希望你能通过这篇文章,很好地理解不同优化算法间的特性差异。
相关链接:
二阶优化算法:
https://web.stanford.edu/class/msande311/lecture13.pdf
Nesterov梯度加速法:http://cs231n.github.io/neural-networks-3/
================Adam部分说真的,看的还有点晕,数学底子不行啊,下次再补吧==============
简单解释Momentum,RMSprop,Adam优化算法,
看这篇文章,对Adam算法有个宏观的认识,但具体细节写的不好。
其中,RMSprop是一个未被发表的自适应学习率的算法,该算法由Geoff Hinton在其Coursera课堂的课程6e中提出。
RMSprop和Adadelta在相同的时间里被独立的提出,都起源于对Adagrad的极速递减的学习率问题的求解。2个人其实就是写法不一样,实际上2个公式是一样的。有些文章喜欢写成RMSprop代替Adadelta。2个最终的公式移项就是一个加法,一个写成减法
以下三篇写的很周到,尤其第3篇里面带参考链接
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
优化方法总结:SGD,Momentum,AdaGrad,RMSProp,Adam
梯度优化算法Adam
以下2篇专门讲Adam,
深度学习优化器 Adam 解析
深度学习最常用的学习算法:Adam优化算法