LSTM简单理解
RNN
LSTM
长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
遗忘门
输入门
更新cell状态
输出门
LSTM怎么解决梯度消失和爆炸的问题?
首先三个门的**函数是sigmoid,这也就意味着这三个门的输出要么接近于0, 要么接近于1。当门为1时,这就使得梯度能够很好的在LSTM中传递,很大程度上减轻了梯度消失发生的概率,当门为0时,说明上一时刻的信息对当前时刻没有影响,我们也就没有必要传递梯度回去来更新参数了。
这就是为什么通过门机制就能够解决梯度的原因:使得单元间的传递为0或1
参考文章
参考文章1