在大数据上进行深度学习的速度很慢，因此我们需要学习一些方法来加快深度学习的速度。

1batch vs. mini-batch梯度下降

1.什么是mini-batch？
向量化能够使得我们更快地处理输入X和输出Y，可是当输入样本量太大时，比如m=5000000,梯度下降的速度仍旧会比较慢。这时可以把训练集分割为小一点的子训练集，这些子集称为mini-batch，比如1~1000为第一个mini-batch，符号为 $X^{{1}}$ ,那么一共有5000个mini-batch，Y也是如此。每个mini-batch的符号为 $X^{{t}}, Y^{{t}}$ 。

2.几种梯度下降的性能。PS:深度学习中的SGD指的就是mini-batch gredient descent
使用mini-batch gradient descent需要将batch gradient descent分解为T次mini-batch梯度下降。
优化算法--深度学习Lesson2--week2

batch size	name	特点
size=m	batch..	向量化，一次迭代需要长时间
size=T	mini batch..	既有向量化带来的速度提升，又使得梯度下降的速度变快
size=1	stochastic..	失去了向量化带来的优势

注意：随机梯度下降和mini-batch永远不会收敛，只是会在最小值附近。

3.mini-batch的size怎么选？
一般选择2的整数次幂，{64,128,256,512}.

2指数加权平均（exponentially weighted average）

1.概念
优化算法--深度学习Lesson2--week2
每一天的均值 $V_{t} = β V_{t - 1} + (1 - β) θ_{t}$ ,计算出的均值 $V_{t}$ 大约是 $1 / (1 - β)$ 天的均值。所以 $β$ 越接近1，均值曲线越平滑，如绿色曲线，越接近0波动越大，如黄色曲线。
当 $β = 0.9$ ,我们将公式展开，代入每天的温度，可以计算出与当前值相差10天的温度值的权重为当天权重的 ${0.9}^{10} \approx 0.35 \approx 1 e$ ，也就是说它的权重为当前天的1/3，我们不再考虑权重小于当前1/3的温度值。因此计算均值时，是将公式 $β^{n} \approx \frac{1}{e}$ 近似为 $n = \frac{1}{1 - β}$ 。

2.优势
使用指数加权平均来计算均值的好处是不需要存储每一天的数据，它的近似计算均值的方法只需要每次取出一天的均值与之前的均值做加权计算就行了。在计算机中实现也十分简单：
$v = 0$
repeat{
get next $θ$
$v := β v + (1 - β) θ$
}

3.偏差修正bias correction
在指数加权平均的初期阶段，因为初始化v=0，因此最开始算的均值v会偏小，这时我们进行偏差修正使得初始值正常。
$v = 0$
repeat{
get next $θ$
$v := β v + (1 - β) θ$
$v := v / (1 - β^{t})$ # t是循环次数
}
开始时t比较小用来修正v，后期t较大， $β^{t}$ 接近0，修正作用减小。

3动量梯度下降Momentum

优化算法--深度学习Lesson2--week2
对于碗状的损失函数，在利用Momentum之后因为均值化参数，横轴保持向前摆动，纵轴因为正负值相互抵消而摆动减小。(也就是在梯度方向不变的时候加速学习，在梯度方向改变的时候减少更新，因此增加了稳定性。)
这样使得学习速率learning rate可以设置为较大的值。
优化算法--深度学习Lesson2--week2
从这里看出，每一次进行梯度下降的值都是前几次计算出来的dw,db的均值。

4 RMS(root mean square) prop

implemention

on each iteration t:
compute dw,db on current mini-batch
$S_{d_{w}} = β_{2} S_{d_{w}} + (1 - β_{2}) d_{w}^{2}$
$S_{d_{b}} = β_{2} S_{d_{b}} + (1 - β_{2}) d_{b}^{2}$
$w = w - α \frac{d_{w}}{\sqrt{S_{d_{w}}} + ϵ}$ , 一般取 $ϵ = 10^{- 8}$
$b = b - α \frac{d_{b}}{\sqrt{S_{d_{b}}} + ϵ}$

优化算法--深度学习Lesson2--week2
使得纵轴上变化较大的db被一个较大的数（斜率大）相除，而横洲上的dw被一个较小的数（斜率小）相除，这样做的结果就是减小的纵轴上的摆动。

5 Adam

Adam方法是将Momentum与RMS方法相结合的一种优化算法。

on each iteration t:
compute dw,db on current mini-batch
$V_{d_{w}} = 0, V_{d_{b}} = 0, S_{d_{w}} = 0, V_{d_{b}} = 0,$
$V_{d_{w}} = β_{1} V_{d_{w}} + (1 - β_{1}) d_{w}$ , $V_{d_{b}} = β_{1} V_{d_{b}} + (1 - β_{1}) d_{b}$ , 一般有 $β_{1} = 0.9$
$S_{d_{w}} = β_{2} S_{d_{w}} + (1 - β_{2}) d_{w}^{2}$ , $S_{d_{b}} = β_{2} S_{d_{b}} + (1 - β_{2}) d_{b}^{2}$ ，一般有 $β_{2} = 0.999$
$V_{d_{w}}^{c o r r r e c t e d} = V_{d_{w}} / (1 - β_{1}^{t}), V_{d_{b}}^{c o r r r e c t e d} = V_{d_{b}} / (1 - β_{1}^{t})$
$S_{d_{w}}^{c o r r r e c t e d} = S_{d_{w}} / (1 - β_{2}^{t}), S_{d_{b}}^{c o r r r e c t e d} = S_{d_{b}} / (1 - β_{2}^{t})$
$w = w - α \frac{V_{d_{w}}}{\sqrt{S_{d_{w}}} + ϵ}$ , $b = b - α \frac{V_{d_{b}}}{\sqrt{S_{d_{b}}} + ϵ}$ ,一般取 $ϵ = 10^{- 8}$

超参数有 $α, β_{1}, β_{2}, ϵ$ ， $α$ 需要调节参数，其余超参数一般取经验值。

6 Learning rate decay学习速率衰减

公式： $α = \frac{1}{1 + d e c a y R a t e * e p o c h N u m} α_{0}$
epochNum指的是遍历一遍所有训练集的次数。公式中有两个超参数 $α_{0}$ ,decayRate需要调参。公式表示的是随着遍历次数的增加，学习速率逐渐降低。
其他的学习速率降低： $α = {0.95}^{e p o c h N u m} α_{0}$
$α = \frac{k}{\sqrt{e p o c h N u m}} α_{0}$

7 局部最优问题

在深度学习中，最优化问题其实并不容易困在局部最小值点。在高维度空间时（如20000维），局部最小值点需要在所有维度上都取得最小值，概率为 $2^{- 20000}$ ，相反更容易困在鞍点处。也就是它的导数在某些维度上凸，在有些维度下凹，（在一个方向是极大值，另一个方向是极小值的点）。鞍点的Hessian矩阵是半正定矩阵。
如果局部最优不是问题，那问题是什么？
缓慢变化的平台会使得训练减慢,因此可以通过自适应学习率算法如Adam或者RMSProp加速学习。

总结

1.优化算法是为了做什么？
2.几种不同的优化算法的优缺点？（重点）
三种优化算法+adagrad
https://zhuanlan.zhihu.com/p/22252270
https://blog.****.net/qq_28031525/article/details/79535942

优化算法--深度学习Lesson2--week2