常见的几种梯度下降方法(笔记by李宏毅2020ML)
SGD
SGDM:利用之前的梯度跳出可能的局部极小值,类似于物理里的惯性
Adagrad:小的梯度用一个大的lr,大的梯度用一个小的lr。思考:其实lr一直在减小?只是一个相对之前一步幅度大小?
RMSProp:解决前面Adagrad的一直增大问题(前期梯度很大的话一下子就停下来了),类似SGDM考虑之前的梯度
Adam:将SGDM与RMSProp优点结合:综合了一阶和二阶梯度的变化
SGD
SGDM:利用之前的梯度跳出可能的局部极小值,类似于物理里的惯性
Adagrad:小的梯度用一个大的lr,大的梯度用一个小的lr。思考:其实lr一直在减小?只是一个相对之前一步幅度大小?
RMSProp:解决前面Adagrad的一直增大问题(前期梯度很大的话一下子就停下来了),类似SGDM考虑之前的梯度
Adam:将SGDM与RMSProp优点结合:综合了一阶和二阶梯度的变化