DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

首发于个人博客：fangzh.top，欢迎来访

这周学习了优化算法，可以让神经网络运行的更快。

主要有:

mini-batch
动量梯度下降(momentum)
RMSprop
Adam优化算法
学习率衰减

mini-batch(小批量)

原本的梯度下降算法，在每一次的迭代中，要把所有的数据都进行计算再取平均，那如果你的数据量特别大的话，每进行一次迭代就会耗费大量的时间。

所以就有了mini-batch，做小批量的计算迭代。也就是把训练集划分成n等分，比如数据量有500万个的时候，以1000为单位，将数据集划分为5000份，

x = x^{{1}}, x^{{2}}, x^{{3}}, . . . . ., x^{{5000}}

用大括弧表示每一份的mini-batch，其中每一份 $x^{{t}}$ 都是1000个样本。

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

这个时候引入epoch的概念，1个epoch相当于是遍历了一次数据集，比如用mini-batch，1个epoch就可以进行5000次迭代，而传统的batch把数据集都一起计算，相当于1个epoch只进行了1次迭代。

具体计算步骤是：

先划分好每一个mini-batch
for t in range(5000)，循环每次迭代
- 循环里面和之前的计算过程一样，前向传播，但每次计算量是1000个样本
- 计算损失函数
- 反向传播
- 更新参数

batch和mini-batch的对比如图：

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

如果mini-batch的样本为m的话，其实就是batch gradient descent，缺点是如果样本量太大的话，每一次迭代的时间会比较长，但是优点是每一次迭代的损失函数都是下降的，比较平稳。
mini-batch样本为1的话，那就是随机梯度下降（Stochastic gradient descent）,也就是每次迭代只选择其中一个样本进行迭代，但是这样会失去了样本向量化带来的计算加速效果，损失函数总体是下降的，但是局部会很抖动，很可能无法达到全局最小点。
所以选择一个合适的size很重要， $1 < s i z e < m$ ，可以实现快速的计算效果，也能够享受向量化带来的加速。

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

mini-batch size的选择

因为电脑的内存和使用方式都是二进制的，而且是2的n次方，所以之前选1000也不太合理，可以选1024，但是1024也比较少见，一般是从64到512。也就是 $64 、 128 、 256 、 512$

指数加权平均(Exponentially weighted averages )

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

蓝色的点是每一天的气温，可以看到是非常抖动的，那如果可以把它平均一下，比如把10天内的气温平均一下，就可以得到如红色的曲线。

但是如果是单纯的把前面的10天气温一起平均的话，那么这样你就需要把前10天的气温全部储存记录下来，这样子虽然会更准一点，但是很浪费储存空间，所以就有了指数加权平均这样的概念。方法如下：

V_{0} = 0

V_{1} = β * V_{0} + (1 - β) θ_{1}

$\dots \dots$

V_{t} = β * V_{t - 1} + (1 - β) θ_{t}

其中， $θ_{t}$ 表示第t天的温度，而 $V_{t}$ 表示指数加权平均后的第t天温度， $β$ 这个参数表示 $\frac{1}{1 - β}$ 天的平均，也就是， $β = 0.9$ ，表示10天内的平均， $β = 0.98$ ，表示50天内的平均。

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

理解指数加权平均

我们再来看一下公式：

v_{t} = β v_{t - 1} + (1 - β) θ_{t}

假设 $β = 0.9$ ，那么

v_{100} = 0.9 v_{99} + 0.1 θ_{100}

v_{99} = 0.9 v_{98} + 0.1 θ_{99}

v_{98} = 0.9 v_{97} + 0.1 θ_{98}

展开一下，得到：

v_{100} = 0.1 θ_{100} + 0.1 \times 0.9 \times θ_{99} + 0.1 \times {0.9}^{2} \times θ_{98} + . . . . . .

看到没有，每一项都会乘以0.9，这样就是指数加权的意思了，那么为什么表示的是10天内的平均值呢？明明是10天以前的数据都有加进去的才对，其实是因为 ${0.9}^{10} \approx 0.35 \approx \frac{1}{e}$ ，也就是10天以前的权重只占了三分之一左右，已经很小了，所以我们就可以认为这个权重就是10天内的温度平均，其实有详细的数学证明的，这里就不要证明了，反正理解了 $(1 - ϵ)^{\frac{1}{ϵ}} \approx \frac{1}{e}$ ， $ϵ$ 为0.02的时候，就代表了50天内的数据。

指数加权平均的偏差修正

如果你细心一点，你就会发现其实这个公式有问题，

V_{0} = 0

V_{1} = β * V_{0} + (1 - β) θ_{1}

$\dots \dots$

V_{t} = β * V_{t - 1} + (1 - β) θ_{t}

如果第一天的温度是40摄氏度，那么 $V_{1} = 0.1 * 40 = 4$ ，显然是不合理的。因为初始值 $V_{0} = 0$ ，也就是前面几天的数据都会普遍偏低。所以特别是在估测初期，需要进行一些修正，这个时候就不要用 $v_{t}$ 了，而是用 $\frac{v_{t}}{1 - β^{t}}$ 来代表第t天的温度平均，你会发现随着t的增加， $β^{t}$ 接近于0，所以偏差修正几乎就没有用了，而t比较小的时候，就非常有效果。

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

不过在大部分机器学习中，一般也不需要修正，因为只是前面的初始时期比较有偏差而已，到后面就基本不会有偏差了，所以也不太用。

动量梯度下降法 (Gradient descent with Momentum )

用动量梯度下降法运行速度总是比标准的梯度下降法要来的快。它的基本思想是计算梯度的指数加权平均数，然后用该梯度来更新权重。

效果如图：

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

使用动量梯度下降法后，在竖直方向上的抖动减少了，而在水平方向上的运动反而加速了。

算法公式：

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

可以发现，就是根据指数平均计算出了 $v_{d W}$ ，然后更新参数时把 $d W$ 换成了 $v_{d w}$ ， $β$ 一般的取值是0.9。可以发现，在纵向的波动经过平均以后，变得非常小了，而因为在横向上，每一次的微分分量都是指向低点，所以平均后的值一直朝着低点前进。

物理意义：

个人的理解是大概这个公式也很像动量的公式 $m v = m_{1} v_{1} + m_{2} v_{2}$ ，也就是把两个物体合并了得到新物体的质量和速度的意思
理解成速度和加速度，把 $v_{d W}$ 看成速度， $d W$ 看成加速度，这样每次因为有速度的存在，加速度只能影响到速度的大小而不能够立刻改变速度的方向。

RMSprop（root mean square prop）

均方根传播。这是另一种梯度下降的优化算法。

顾名思义，先平方再开根号。

其实和动量梯度下降法公式差不多：

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

在更新参数的分母项加了一项 $ϵ = 10^{- 8}$ ,来确保算法不会除以0

Adam算法

Adam算法其实就是结合了Momentum和RMSprop ，注意这个时候要加上偏差修正：

初始化参数： $v_{d W} = 0$ ， $S_{d W} = 0$ ， $v_{d b} = 0$ ， $S_{d b} = 0$
在第 $t$ 次迭代中，
- 计算mini-batch的dW,db
- Momentum: $v_{d W} = β_{1} v_{d W} + (1 - β_{1}) d W$ ， $v_{d b} = β_{1} v_{d b} + (1 - β_{1}) d b$
- RMSprop: $S_{d W} = β_{2} S_{d W} + (1 - β_{2}) {(d W)}^{2}$ ， $S_{d b} = β_{2} S_{d b} + (1 - β_{2}) {(d b)}^{2}$
- $v_{d W}^{corrected} = \frac{v_{d W}}{1 - β_{1}^{t}}$ ， $v_{d b}^{corrected} = \frac{v_{d b}}{1 - β_{1}^{t}}$
- $S_{d W}^{corrected} = \frac{S_{d W}}{1 - β_{2}^{t}}$ ， $S_{d b}^{corrected} = \frac{S_{d b}}{1 - β_{2}^{t}}$
- $W := W - \frac{a v_{d W}^{corrected}}{\sqrt{S_{d W}^{corrected}} + ε}$

超参数有 $α, β_{1}, β_{2}, ϵ$ ，一般 $β_{1} = 0.9, β_{2} = 0.999, ϵ = 10^{- 8}$

学习率衰减

在梯度下降时，如果是固定的学习率 $α$ ，在到达最小值附近的时候，可能不会精确收敛，会很抖动，因此很难达到最小值，所以可以考虑学习率衰减，在迭代过程中，逐渐减小 $α$ ，这样一开始比较快，后来慢慢的变慢。

常用的是：

a = \frac{1}{1 + d e c a y r a t e * epoch_num} a_{0}

a = \frac{k}{\sqrt{epoch_num}} a_{0}

a = \frac{k}{\sqrt{t}} a_{0}

DeepLearning.ai笔记:(2-2)-- 优化算法（Optimization algorithms）

mini-batch(小批量)

指数加权平均(Exponentially weighted averages )

理解指数加权平均

指数加权平均的偏差修正

动量梯度下降法 (Gradient descent with Momentum )

RMSprop（root mean square prop）

Adam算法

学习率衰减

相关推荐