深度学习_深度学习基础知识_学习率相关技巧

差分学习率

深度学习_深度学习基础知识_学习率相关技巧

对不同的网络层数使用不同的学习率,这样可以防止过拟合,有利于加速学习。

寻找合适的学习率

周期性学习率 + loss的组合进行学习率选取。首先尝试使用较低学习率来训练神经网络,以指数形式增加,同时,记录每个学习率对应的loss值,然后画出学习率和loss值的关系图,通过找出学习率最高且loss值人在下降的值来确定最佳学习率。

深度学习_深度学习基础知识_学习率相关技巧

深度学习_深度学习基础知识_学习率相关技巧

使用余弦退火的方法

在采用批次随机梯度下降算法时,神经网络应该越来越接近loss值的全局最小值。当它逐渐接近这个最小值时,学习率应该变得更小来使得模型不会超调且尽可能接近这一点。余弦退火(Cosine annealing)利用余弦函数来降低学习率,随着迭代次数的增加,余弦值首先缓慢下降,然后加速下降,再次缓慢下降。这种下降模式能和学习率配合,以一种十分有效的计算方式来产生很好的效果。同时,在这种方法基础上,我们可以进一步引入重启机制。

深度学习_深度学习基础知识_学习率相关技巧

带重启的SGD算法

在训练时,梯度下降苏算法可能陷入局部最小值,而不是全局最小值。梯度下降算法可以通过突然提高学习率,来“跳出”局部最小值并找到通向全局最小值的路径。这种方式称为带重启的随机梯度下降方法(stochastic gradient descent with restarts,SGDR)

深度学习_深度学习基础知识_学习率相关技巧

深度学习_深度学习基础知识_学习率相关技巧