一、参数优化器简介

待优化参数w，损失函数loss，学习率Ir，每次迭代一个batch，t表示当前batch迭代的总次数：
1，计算时刻损失函数关于当前参数的梯度 $g_{t} = \frac{\partial loss}{\partial (w_{t})}$
2，计算t时刻一阶动量 $m_{t}$ ，和二阶动量 $V_{t}$ ，
3，计算时刻下降梯度： $\eta _{t}=lr * \frac{m}{\sqrt{V}}$
4，计算t+1时刻参数: $w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m}{\sqrt{V}}$
一阶动量：与梯度相关的函数
二阶动量：与梯度平方相关的函数
客观来说，需优化的参数仅为输入的权重w和偏置b，不需要优化输入的特征值和超参数，并且优化器之间的差异也是因一阶动量和二阶动量赋值不同而不同。下面来分别详细介绍SGD、SGDM、Adagrad、Rmsprop、Adam五种参数优化器。

二、五种参数优化器

2.1 SGD（不含momentum的梯度下降算法）

$m_{t} = g_{t}$ ， $V_{t} = 1$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * g_{t}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * g_{t}$

2.2 SGDM（含momentum的梯度下降算法，在SGD基础上增加一阶动量）

$m_{t} = \beta m_{t-1} + (1-\beta)g_{t}$ ， $V_{t} = 1$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * m_{t} = lr *[ \beta m_{t-1} + (1-\beta)g_{t}]$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr *[ \beta m_{t-1} + (1-\beta)g_{t}]$

注： $\beta = 0.9$

2.3 Adagrad（在SGD基础上增加二阶动量）

$m_{t} = g_{t}$ ， $V_{t} = \sum_{t=1}^{t} g_{t}^{2}$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * \frac{g_{t}}{\sqrt{\sum_{t=1}^{t} g_{t}^{2}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * \frac{g_{t}}{\sqrt{\sum_{t=1}^{t} g_{t}^{2}}}$

2.4 RMSProp（在SGD基础上增加二阶动量）

$m_{t} = g_{t}$ ， $V_{t} = \beta V_{t-1}+(1-\beta) g_{t}^{2}$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * \frac{g_{t}}{\sqrt{ \beta V_{t-1}+(1-\beta) g_{t}^{2}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * \frac{g_{t}}{\sqrt{ \beta V_{t-1}+(1-\beta) g_{t}^{2}}}$

注： $\beta = 0.9$

2.5 Adam（同时结合SGDM一阶动量和RMSProp二阶动量）

$m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1})g_{t}$ ， $V_{t} = \beta_{2} V_{t-1}+(1-\beta_{2}) g_{t}^{2}$
对 $m_{t}$ 和 $v_{t}$ 分别进行修正动量的偏差，改为：
$\hat{m_{t}} = \frac{m_{t}}{1-\beta_{1}^{t}}$
$\hat{V_{t}} = \frac{v_{t}}{1-\beta_{2}^{t}}$
$\eta _{t}=lr * \frac{\hat{m_{t}} }{\sqrt{\hat{V_{t}}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{\hat{m_{t}} }{\sqrt{\hat{V_{t}}}}$