LSTM简单理解

RNN

LSTM简单理解

LSTM

长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
LSTM简单理解

遗忘门

LSTM简单理解

输入门

LSTM简单理解

更新cell状态

LSTM简单理解

输出门

LSTM简单理解

LSTM怎么解决梯度消失和爆炸的问题?

首先三个门的**函数是sigmoid,这也就意味着这三个门的输出要么接近于0, 要么接近于1。当门为1时,这就使得梯度能够很好的在LSTM中传递,很大程度上减轻了梯度消失发生的概率,当门为0时,说明上一时刻的信息对当前时刻没有影响,我们也就没有必要传递梯度回去来更新参数了
这就是为什么通过门机制就能够解决梯度的原因:使得单元间的传递为0或1

参考文章
参考文章1