浅谈LSTM(long-short Time Memory)
LSTM存在三个门控,“记忆门”,“遗忘门”,“输出门”。它有一个特殊的状态就是细胞状态,类似一个“传送带”,信息在上面传输保持不变很容易,用来记忆之前的信息。细胞状态的更新来自记忆门和遗忘门以及上一时间刻的细胞状态。LSTM是为了解决RNN梯度消失的一种改进。LSTM可以理解为“延长短时记忆”,“遗忘门”表示遗忘上一时刻细胞状态的概率,(0:遗忘,1:记忆),即:它会根据当前时刻的输入,上一时刻的细胞状态和隐层状态来共同决定 哪一部分记忆需要被遗忘。“输入门”用来决定将哪些新的信息放进细胞状态中,“输出门”用来输出当前的细胞状态和隐层状态。
传统的RNN容易出现梯度消失问题,原因是
也就是说当初始的权重值小于0时,在反向传播更新参数时,导致求得的偏导数较小,出现梯度消失。也就是说靠近输出层的网络学习速度更快,更容易收敛,而靠近输出层的网络很难达到收敛。
在文本识别任务中,我们要考虑上下文,双向RNN,不仅可以学习数据的正向规律,还可以学习信息的反向规律,在预测时,正反向结合的网络会比单向循环网络有更高的拟合度。双向RNN的结构为输出层提供了每一个点的上下文信息。
双向RNN的结构图