LSTM系列的梯度问题

1.前沿

本文主要围绕NN、RNN、LSTM和GRU，讨论后向传播中所存在的梯度问题，以及解决方法，力求深入浅出。

2.神经网络开始

神经网络包括前向过程和后向过程，前向过程定义网络结构，后向过程对网络进行训练（也就是优化参数），经过多轮迭代得到最终网络（参数已定）
我们先来分析一个非常简单的三层神经网络：
LSTM系列的梯度问题
数据集 $D = (x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})$

2.1前向过程：

在输入层，假设该层节点数为d，也就是特征x的维度， $x_{i}$ 作为该层输出；

在隐藏层中，该层节点数为q，每个节点的输入 $α_{h}$ 就是上一层所有节点输出 $x_{i}$ 的线性组合值，该节点的输出 $b_{h} 是 α_{j}$ 的**值，这里假设使用sigmoid**函数；

在输出层，该层节点数为l，也就是输出y的维度，同理，每个节点的输入 $β_{j}$ 是 $b_{h}$ 的线性组合值，输出 $y_{j}^{'} 是 β_{j} 的激活值$ ，根据不同任务选择不同**函数，比如二分类任务一般是用sigmoid**函数把 $y_{j}^{'} 限制到 [0, 1] 之间。$

2.2后向过程

1）首先我们根据网络输出和真实Label来定义Loss函数，这里定义为简单的均方误差：

$E_{k} = \frac{1}{2} \sum_{j = 1}^{l} (y_{j}^{'} - y_{j})^{2}$

那么我们的目标就是最小化Loss，调整参数 w_{hj} 和 v_{ih} ，使得网络尽量去拟合真实数据。如何求最小值？那当然是求导了，根据loss函数对参数求导，然后往梯度下降的方向去更新参数，可以降低loss值。梯度主宰更新，如果梯度太小，会带来梯度消失问题，导致参数更新很慢；那如果梯度很大，又会造成梯度爆炸问题。

2）对于输出层参数 $w_{i j} ， E 对 w_{h j}$ 进行链式求导，也就是，E先对节点的输出 $y_{j}^{'}$ 求导，再对节点的输入 $β_{j}$ 求导，最后 对 $w_{h j}$ 求导，结果为：
$\frac{\partial E}{\partial w_{h j}} = \frac{\partial E}{\partial y_{j}^{'}} \frac{\partial y_{j}^{'}}{\partial β_{j}} \frac{\partial β_{j}}{\partial w_{h j}} = (y_{j}^{'} - y_{j}) \cdot y_{j}^{'} (1 - y_{j}^{'} \cdot b_{h}$

这里我们令 $g_{j} = (y_{j}^{'} - y_{j}) \cdot y_{j}^{'} (1 - y_{j}^{'})$ ，就可以得到参数 $w_{h j}$ 的更新量为：

$Δ w_{h j} = - η \cdot g_{j} \cdot b_{h}$

3）对于隐藏层参数 $v_{i h}$ ，也是链式求导，E先对该层节点的输出 $b_{j}$ 求导，再对节点的输入 $α_{j}$ 求导，最后对 $v_{i h}$ 求导，其实在前面我们已经求出了部分梯度，最后结果为：
$\frac{\partial E}{\partial v_{i h}} = \frac{\partial E}{\partial b_{h}} \frac{\partial b_{h}}{\partial α_{h}} \frac{\partial α_{h}}{\partial v_{i h}} = (\sum_{j = 1}^{l} \frac{\partial E}{\partial y_{j}^{'}} \frac{\partial y_{j}^{'}}{\partial β_{j}} \frac{\partial β_{j}}{\partial b_{h}}) \cdot \frac{\partial b_{h}}{\partial α_{h}} \cdot \frac{\partial α_{h}}{\partial v_{i h}}$

注意到， $\frac{\partial E}{\partial y_{j}^{'}} \frac{\partial y_{j}^{'}}{\partial β_{j}}$ 其实我们刚刚求过，其实就是 $g_{j}$ 这货，因此我们可得：
$\frac{\partial E}{\partial v_{i h}} = (\sum_{j = 1}^{l} g_{j} \cdot w_{h j}) \cdot b_{h} (1 - b_{h}) \cdot x_{i}$

再次令 $e_{h} = (\sum_{j = 1}^{l} g_{j} \cdot w_{h j}) \cdot b_{h} (1 - b_{h})$ ，可以得到 $v_{i h}$ 的更新量为：

$Δ v_{i h} = - η \cdot e_{h} \cdot x_{i}$

也就可以愉快地将更新 $v_{i h} = v_{i h} + Δ v_{i h}$ 了。

2.3 等等，事情好像并没有这么简单

1） $g_{j}$ ：这是上一层传递过来的梯度，如果上一层的梯度本来已经很小，那么在这一层进行相乘，会导致这一层的梯度也很小。所以如果网络层比较深，那么在链式求导的过程中，越是低层的网络层梯度在连乘过程中可能会变得越来越小，导致梯度消失。

2） $w_{h j}$ ：这是这一层的权重，这一项是造成梯度爆炸的主要原因，如果权重很大，也可能会导致相乘后的梯度也比较大。（梯度爆炸不是问题，做个梯度裁剪就行了，对梯度乘以一个缩放因子，我们主要考虑的是梯度消失问题）

3） $b_{h} (1 - b_{h})$ ：这是sigmoid**函数的导数，sigmoid**值本身已经是一个比较小的数了，这两个小于1的数相乘会变得更小，就可能会造成梯度消失。

我们直接来看sigmoid的这个图吧，只有在靠近0的区域梯度比较大（然而也不会超过0.25），在接近无穷小或者无穷大的时候梯度几乎是0了：
LSTM系列的梯度问题

所以sigmoid是造成梯度消失的一个重要原因，**函数其实是为了引入了非线性操作，使得神经网络可以逼近非线性函数。因此如果不是输出层必须要用sigmoid来限制输出范围，我一般是不用sigmoid的。

那么从**函数出发，缓解梯度消失有以下方法：
1）不行就换，比如把sigmoid换成relu，在x>0的时候可以稳稳维持1的梯度。
LSTM系列的梯度问题
2）不想换那也行，既然我们知道sigmoid在靠近0的取值范围内梯度比较大，但我们可以把数据尽量规范化到一个比较合适的范围，也就是接下来要谈到的Normaliztion。

3. 从RNN到LSTM再到GRU

接下来我们再探讨一下RNN系列，也就是展开型的神经网络。

3.1 RNN

RNN是最简单的循环神经网络，其实就是对神经网络展开k个step，所有step共享同一个神经网络模块S，我们还是直接来看图吧：
LSTM系列的梯度问题

这是一个序列预测任务，可以看到在RNN中 W_s 和 W_x这两个参数是共享的，注意噢：这里也有个共享的W_o ，但不是包含在RNN中的，只是用于序列预测而已。

在step t下，RNN的输出向量 $s_{t}$ 是：

$s_{t} = t a n h (W_{x} x_{t} + W_{s} s_{t - 1} + b)$

接下来 $W_{o} 和 s_{t}$ 进行相乘得到step t下的预测值 $o_{t}$ （加**函数也可以）。假设step t 的正确label是 $y_{t}$ ，我们现在还是将Loss函数定义为均方误差：
$E = \frac{1}{2} \sum_{t = 1}^{T} (y_{t} - o_{t})^{2}$ .

现在我们来看看怎么更新W_x，可以看到在step t 下，计算 o_t 不仅涉及到了step t下的W_x ，也涉及到了前面step下的W_x，来看这个反向传播路径图：
LSTM系列的梯度问题
因此在step t下， $E_{t} 对 w_{x}$ 求导需要对前面所有step的 $W_{x}$ 依次进行求导，再加起来：

$\frac{\partial E_{t}}{\partial W_{x}} = \sum_{i = 1}^{t} \frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial s_{t}} (\prod_{j = i + 1}^{t} \frac{\partial s_{j}}{\partial s_{j - 1}}) \frac{\partial s_{i}}{\partial W_{x}}$

注意到有一个硕大的连乘符号，事情好像又开始变得不简单起来，我们来继续求导下去，在RNN中 s的**函数是tanh函数：

$\prod_{j = i + 1}^{t} \frac{\partial s_{j}}{\partial s_{j - 1}} = \prod_{j = i + 1}^{t} t a n h^{'} \cdot W_{s}$

路和前面的神经网络是一样的！这里又涉及到了**函数的梯度，以及网络的其它权重 $W_{s}$ ，而tanh其实只是将sigmoid的范围从[0, 1]变到[-1, 1]而已：
LSTM系列的梯度问题

另外，我们从矩阵的角度来看， $\frac{\partial s_{j}}{\partial s_{j - 1}}$ 是个Jacobian矩阵（向量对向量求导），如果矩阵值太大显然会带来梯度爆炸（这个不是重点），重点是如果值比较小，而且又经过矩阵连乘，梯度值迅速收缩，最后可能会造成梯度消失。

刚刚我们推导了 W_x的梯度， W_s其实也是一样的，这里不再重复推导。而 W_o，前面讲到它不是属于RNN的，但是我们也不妨来推导一下：

$\frac{\partial E_{t}}{W_{o}} = \frac{\partial E_{t}}{\partial o_{t}} \cdot \frac{\partial o_{t}}{\partial W_{o}}$

咦！没错，在step t下， $o_{t}$ 只和这个step的 $W_{o}$ 有关，和前面step的 $W_{o}$ 都没关系，所以 $W_{o}$ 的梯度对我们并没有什么威胁。

3.2 LSTM出场

上面讲到，RNN的梯度问题是产生于 $\prod_{j = i + 1}^{t} \frac{\partial s_{j}}{\partial s_{j - 1}}$ 这一项，LSTM作为RNN的改进版本，改进了共享的神经网络模块，引入了cell结构，其实也是为了在这一项中保持一定的梯度，把连乘操作改为连加操作。
LSTM系列的梯度问题
LSTM相信很多人看过这个：[译] 理解 LSTM 网络，但是我发现cs231n的公式更加简洁，把四个门层结构的权重参数合成一个W

求导过程比较复杂，我们先看一下c_t这一项：

$c_{t} = f_{t} \cdot c_{t - 1} + i_{t} \cdot g_{t}$

和前面一样，我们来求一下 $\frac{\partial c_{t}}{\partial c_{t - 1}}$ ，这里注意 $f_{t} ， i_{t} 和 g_{t}$ 都是 $c_{t - 1}$ 的复合函数：

$\frac{\partial c_{t}}{\partial c_{t - 1}} = f_{t} + \frac{\partial f_{t}}{\partial c_{t - 1}} \cdot c_{t - 1} + . . .$

后面的我们就不管了，展开求导太麻烦了，第一项 $f_{t}$ 是什么！大声告诉我！ $f_{t}$ 是forget gate的输出值，1表示完全保留旧状态，0表示完全舍弃旧状态，那如果我们把 f_t设置成1或者是接近于1，那 $\frac{\partial c_{t}}{\partial c_{t - 1}}$ 这一项就有妥妥的梯度了。

因此LSTM是靠着cell结构来保留梯度，forget gate控制了对过去信息的保留程度，如果gate选择保留旧状态，那么梯度就会接近于1，可以缓解梯度消失问题。这里说缓解，是因为LSTM只是在 c_t到 c_{t-1}这条路上解决梯度消失问题，而其他路依然存在梯度消失问题。

而且forget gate解决了RNN中的长期依赖问题，不管网络多深，也可以记住之前的信息。

另外，LSTM可以缓解梯度消失，但是梯度爆炸并不能解决，但实际上前面也讲过，梯度爆炸不是什么大问题。

3.3GRU

略

4.从Batch Normalization到Group Normalization

现在我们已经知道：

1）**函数对梯度也有很大的影响，大部分**函数只在某个区域内梯度比较好。

2）在后向传播的时候，我们需要进行链式求导，如果网络层很深，**函数有权重又小，会导致梯度消失；如果权重很大，又会导致梯度爆炸。

那么解决梯度消失可以从这几方面入手：

1）换**函数；2）调整**函数的输入；3）调整网络结构

事实上，我们有一个好东西可以解决梯度问题，叫做Normalization，就是从第二方面入手同时解决梯度消失和爆炸，而且也可以加快训练速度。

4.1Batch Normalization

假设对于一个batch内某个维度的特征 {{x_1, x_2, …, x_m}}，

BN需要将其转化成 {{y_1, y_2, …, y_m}}，

首先对节点的线性组合值进行归一化，使其均值是0，方差是1。（也就是，对节点的输入进行归一化，而不是对输出进行归一化）

$x_{i}^{'} = \frac{x_{i} - μ}{\sqrt{σ^{2} + ε}}$

其中 $μ 是均值， σ^{2}$ 是标准差， $ε$ 是用来控制分母为正。

但是数据本来不是这样子的啊！我们强行对数据进行缩放，可能是有问题的，所以BN又加了一个scale的操作，使得数据有可能会恢复回原来的样子：

$y_{i} = γ x_{i}^{'} + β$

加了scale可以提升模型的容纳能力。

既然是Batch归一化，那么BN就会受到batch size的影响：
1）如果size太小，算出的均值和方差就会不准确，影响归一化，导致性能下降

2）如果太大，内存可能不够用。

参考文章：https://zhuanlan.zhihu.com/p/36101196