TextRNN

首先复习一下基础的RNN结构如下所示
TextRNN TextRNN
开始正题

一、LSTM模型

LSTM（Long Short-Term Memory）是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
就是所谓的该记得会一直传递，不该记得就被“忘记”。

LSTM“记忆细胞”变得稍微复杂了一点
TextRNN TextRNN

1.1 细胞状态

细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传会很容易保持不变。
TextRNN

LSTM控制“细胞状态”的方式：

通过“门”让信息选择性通过，来去除或者增加信息到细胞状态。
包含一个SIGMOD神经元层和一个pointwise乘法操作。
SIGMOD层输出0到1之间的概率值，描述每个部分有多少量可以通过。0代表“不许任何量通过”，1就表示“允许任意量通过”。

TextRNN

1.2 遗忘门

遗忘门（forget gate）顾名思义，是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示：
TextRNN
TextRNN

1.3 输入门

输入门（input gate）负责处理当前序列位置的输入，它的子结构如下图：
TextRNN
TextRNN

1.4 更新细胞

在研究LSTM输出门之前，我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态 C(t)，我们来看看细胞如何从C(t−1)到C(t):
TextRNN
TextRNN

1.5 输出门

有了新的隐藏细胞状态C(t)，我们就可以来看输出门了，子结构如下：
TextRNN
TextRNN

所以LSTM总的结构示意是这样的
TextRNN

1.6 LSTM变体

相比于传统的LSTM网络：增加peephole connection；让门层也会接受细胞状态的输入。
通过使用coupled忘记和输入门，之前是分开确定需要忘记和添加的信息，然后一同做出决定。

TextRNN

二、 GRU

Gatad Reacurrent Unit (GRU)，2014年提出。

将忘记门和输入门合成了一个单一的更新门
混合了细胞状态和隐藏状态
比标准的LSTM简单

三、 TextRNN

尽管TextCNN能够在很多任务里面能有不错的表现，但CNN有个最大问题是固定 filter_size 的视野，一方面无法建模更长的序列信息，另一方面 filter_size 的超参调节也很繁琐。CNN本质是做文本的特征表达工作，而自然语言处理中更常用的是递归神经网络（RNN, Recurrent Neural Network），能够更好的表达上下文信息。具体在文本分类任务中，Bi-directional RNN（实际使用的是双向LSTM）从某种意义上可以理解为可以捕获变长且双向的的 “n-gram” 信息。

双向LSTM算是在自然语言处理领域非常一个标配网络了，在序列标注/命名体识别/seq2seq模型等很多场景都有应用，下图是Bi-LSTM用于分类问题的网络结构原理示意图，黄色的节点分别是前向和后向RNN的输出，示例中的是利用最后一个词的结果直接接全连接层softmax输出了。

TextRNN
TextRNN

三、神经网络的组合拓展

3.1 TextRNN + Attention

CNN和RNN用在文本分类任务中尽管效果显著，但都有一个不足的地方就是不够直观，可解释性不好，特别是在分析badcase时。而注意力（Attention）机制是自然语言处理领域一个常用的建模长时间记忆机制，能够很直观的给出每个词对结果的贡献，基本成了Seq2Seq模型的标配了。实际上文本分类从某种意义上也可以理解为一种特殊的Seq2Seq，所以考虑把Attention机制引入近来，研究了下学术界果然有类似做法。

3.1.1 Attention机制介绍：

详细介绍Attention恐怕需要一小篇文章的篇幅，感兴趣的可参考14年这篇paper NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE。
TextRNN
Attention的核心point是在翻译每个目标词（或预测商品标题文本所属类别）所用的上下文是不同的，这样的考虑显然是更合理的。

3.2 TextRCNN（TextRNN + CNN）

TextRNN
利用前向和后向RNN得到每个词的前向和后向上下文的表示：

这样词的表示就变成词向量和前向后向上下文向量concat起来的形式了，即：

最后再接跟TextCNN相同卷积层，pooling层即可，唯一不同的是卷积层 filter_size = 1就可以了，不再需要更大 filter_size 获得更大视野，这里词的表示也可以只用双向RNN输出。

事实上，不论是哪种网络，他们在实际应用中常常都混合着使用，比如CNN和RNN在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。

一、LSTM模型

1.1 细胞状态

1.2 遗忘门

1.3 输入门

1.4 更新细胞

1.5 输出门

1.6 LSTM变体

二、 GRU

三、 TextRNN

三、神经网络的组合拓展

3.1 TextRNN + Attention

3.1.1 Attention机制介绍：

3.2 TextRCNN（TextRNN + CNN）

相关推荐