(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

计划完成深度学习入门的126篇论文第二十四篇,蒙特利尔大学的Yoshua Bengio领导的第一篇使用S2S架构并应用在Statistical Machine Translation的论文。


ABSTRACT&INTRODUCTION

摘要

本文提出了一种新的神经网络模型RNN Encoder–Decoder,该模型由两个RNN组成。一个RNN将符号序列编码为定长向量表示,另一个RNN将符号序列解码为另一个符号序列。该模型的编码器和解码器被联合训练,以最大限度地提高给定源序列的目标序列的条件概率。在已有的对数线性模型中,利用RNN Encoder–Decoder计算的短语对条件概率作为附加特征,对统计机器翻译系统的性能进行了改进。定性地证明了该模型在语义和句法上都能有效地表示语言短语。

介绍

深度神经网络在目标识别(如Krizhevsky et al., 2012)和语音识别(如Dahl et al., 2012)等多种应用中取得了巨大的成功。此外,最近的许多研究表明,神经网络可以成功地应用于自然语言处理(NLP)中的许多任务。这些包括但不限于语言建模(Bengio et al., 2003)、意译检测(Socher et al., 2011)和单词嵌入提取(Mikolov et al., 2013)。在统计机器翻译(SMT)领域,深度神经网络已开始显示出良好的应用前景。(Schwenk, 2012)总结了前馈神经网络在基于短语的SMT系统框架中的成功应用。

在研究神经网络在SMT中的应用的基础上,提出了一种新的神经网络体系结构,可以作为传统基于短语的SMT系统的一部分。提出的神经网络结构,我们将称为一个RNN Encoder–Decode,由两个递归神经网络(RNN)作为编码器和解码器对。编码器将变长源序列映射到固定长度的向量,解码器将向量表示映射回变长目标序列。这两个网络被联合训练来最大化给定源序列的目标序列的条件概率。此外,我们建议使用一个相当复杂的隐藏单元,以提高内存容量和训练的易用性。以英法互译为例,对所提出的带有新型隐藏单元的RNN Encoder–Decoder进行了实验评估。

我们训练模型学习英语短语到相应法语短语的翻译概率。然后,通过对短语表中的每个短语对打分,将该模型用作基于短语的标准SMT系统的一部分。实验结果表明,采用RNN Encoder–Decode对短语进行译码,提高了译码性能。

通过对训练后的RNN Encoder–Decode的短语评分与已有的翻译模型进行比较,定性地分析了训练后的RNN Encoder–Decoder的短语评分。定性分析表明,RNN Encoder–Decode能较好地捕捉短语表中的语言规律,间接解释了整体翻译性能的量化提升。对该模型的进一步分析表明,RNN编码器具有较强的鲁棒性解码器学习短语的连续空间表示,该表示同时保留短语的语义和句法结构。

 

2 RNN Encoder–Decoder

2.1 Preliminary: Recurrent Neural Networks

递归神经网络(RNN)是由隐藏状态h和可选输出y组成的神经网络,可选输出y对变量序列(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT。每步t, RNN的隐藏状态(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT更新为

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

其中f为非线性**函数。f可能像elementwise logistic sigmoid函数一样简单,也可能像长短时记忆(LSTM)单元一样复杂(Hochreiter and Schmidhuber, 1997)。

RNN可以通过训练预测序列中的下一个符号来学习序列上的概率分布。在这种情况下,每一步t的输出为条件分布(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT。例如,可以使用softmax**函数输出多项式分布(1-of-K编码)

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

对于所有可能的符号(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT,其中(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT是权重矩阵W的行。通过结合这些概率,我们可以用

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

从这个已知的分布中,通过在每个时间步上迭代采样一个符号来采样一个新的序列是很简单的。

 

2.2 RNN Encoder–Decoder

本文提出了一种新的神经网络结构,该结构学习将变长序列编码为定长向量表示,并将给定的定长向量表示解码为变长序列。从概率的角度看,该模型是一种学习变长序列上条件分布的一般方法,条件是另一个变长序列,如(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT 其中一个应注意,输入和输出序列长度T和t0可能不同。

编码器是一个RNN,它按顺序读取输入序列x的每个符号。当它读取每个符号时,RNN的隐藏状态根据式(1)发生变化,读取序列的结束(用序列结束符号标记)后,RNN的隐藏状态是整个输入序列的汇总c。

该模型的解码器是另一个RNN,它通过预测给定隐藏状态(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT下的下一个符号(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT来训练生成输出序列。然而,与第2.1节中描述的RNN不同,(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT都以(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT和输入序列的汇总c为条件。因此,计算译码器在t时刻的隐藏状态

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

类似地,下一个符号的条件分布是

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

对于给定的**函数f和g(后者必须产生有效的概率,例如使用softmax。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

建议的模型体系结构的图形化描述如图1所示。提出的RNN Encoder–Decoder的两个部分被联合训练,以最大限度地提高条件对数似然

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

θ是模型参数的设置,每个(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT是训练集中的一对(输入序列,输出序列)。在我们的例子中,由于解码器的输出从输入开始是可微的,我们可以使用基于梯度的算法来估计模型参数。一旦训练了RNN Encoder–Decode,该模型可以用两种方式使用。一种方法是使用该模型生成给定输入序列的目标序列。另一方面,该模型可用于给定的输入和输出序列,分数是一个概率(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT方程。

 

2.3 Hidden Unit that Adaptively Remembers and Forgets

除了一个新的模型架构,我们还提出了一种新型的隐藏单元(f In Eq.(1)),它由LSTM单元驱动,但计算和实现起来要简单得多。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

图2给出了所提出的隐藏单元的图形化描述。让我们描述一下如何计算第j个隐藏单元的**。首先,计算复位门reset gate (24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

其中σ是sigmoid函数,(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT表示一个向量。(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT分别为输入和之前的隐藏状态。(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT是学习的权重矩阵

更新门 update gate (24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT 计算为:

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

计算所提议实际激单元(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

在这个公式中,当复位门接近于0时,被迫忽略之前的隐藏状态,只用当前的输入复位。这有效地允许隐藏状态删除将来发现不相关的任何信息,从而允许更紧凑的表示。

另一方面,update gate控制从前一个隐藏状态转移到当前隐藏状态的信息的数量。这类似于LSTM网络中的记忆单元,帮助RNN记住长期信息。此外,这可能被认为是泄漏集成单元的自适应变体(Bengio et al., 2013)。

由于每个隐藏单元都有单独的重置和更新门,因此每个隐藏单元将学习在不同的时间尺度上捕获依赖关系。那些学习捕获短期依赖关系的单元往往具有经常处于活动状态的重置门,而那些捕获长期依赖关系的单元将具有主要处于活动状态的更新门。

在我们的初步实验中,我们发现使用这种带有门控单元的新装置是至关重要的。使用一个常用的tanh单位没有任何gating,我们无法得到有意义的结果。

 

3 Statistical Machine Translation

在一个常用的统计机器翻译系统(SMT)中,该系统(解码器)的目标是找到给定源句e的翻译f,使其最大化

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

其中,右边第一项称为翻译模型,后面一项称为语言模型(如Koehn, 2005)。然而,在实际应用中,大多数SMT系统都将(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT模型作为一个具有附加特征的对数线性模型,并对权重加以修正

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

其中(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT分别为第n个特征和权重。Z(e)是一个不依赖权重的归一化常数。权重常常用来优化最大化BLEU score。

phrase-based SMT框架中引入(科恩et al ., 2003)和(Marcu和黄,2002),日志的翻译模型p (e j f)是映像的翻译概率匹配的短语在源和目标句子。这些概率再次被认为是对数线性模型中的附加特征(见式(9)),并相应地加权以使BLEU得分最大化。自(Bengio et al., 2003)提出神经网络语言模型以来,神经网络在SMT系统中得到了广泛的应用。在许多情况下,神经网络被用来重新核心翻译假设(n-best list)(参见,例如,(Schwenk et al., 2006))。然而,最近,人们对训练神经网络来对翻译后的句子(或短语对)进行评分很感兴趣,使用源句的表示作为额外输入。参见,例如(Schwenk, 2012), (Son et al., 2012)和(Zou et al., 2013)。

3.1 Scoring Phrase Pairs with RNN Encoder–Decoder

在这里,我们建议在短语对表上训练RNN Encoder–Decoder(参见第2.2节),并在调整SMT解码器时,将其分数作为Eq.(9)中的对数线性模型的附加特性。

当我们训练RNN Encoder–Decoder时,我们忽略了原始语料库中每个短语对的(归一化)频率。这项措施是为了(1)降低计算费用的随机选择短语对大型短语表根据归一化频率和(2),以确保RNN Encoder–Decoder不仅学会这句话对排名根据他们的出现。这种选择的一个根本原因是短语表中现有的翻译概率已经反映了短语的频率在原始语料库中配对。在RNN Encoder–Decoder容量固定的情况下,我们尽量保证模型的大部分容量都集中在学习语言规则上,即区分似是而非的翻译,或学习似是而非翻译的流形(概率集中区域)。

一旦训练了RNN Encoder–Decoder,我们将为每个短语对向现有短语表添加一个新的得分。这允许新的分数进入到现有的优化算法中,以最小的额外计算开销。

正如Schwenk在(Schwenk, 2012)中指出的那样,可以用提出的RNN Encoder–Decoder完全替换现有短语表。在这种情况下,对于给定的源短语,RNN Encoder–Decoder将需要生成一个(好的)目标短语列表。然而,这需要重复执行一个昂贵的采样过程。因此,本文只考虑对短语表中的短语对重新取心

3.2 Related Approaches: Neural Networks in Machine Translation

在给出实证结果之前,我们讨论了一些最近提出在SMT环境下使用神经网络的工作。

Schwenk in (Schwenk, 2012)提出了类似的短语对评分方法。他没有使用基于rnnn的神经网络,而是使用了一个前馈神经网络,该网络具有固定大小的输入(在他的例子中是7个单词,对于较短的短语是零填充)和固定大小的输出(目标语言中的7个单词)。当它专门用于为SMT系统评分短语时,通常选择短语的最大长度为小。然而,随着短语长度的增加或我们将神经网络应用于其他变长序列数据时,神经网络能够处理变长输入和输出是很重要的。所提出的RNN Encoder–Decoder非常适合这些应用。

与(Schwenk, 2012)相似,Devlin et al. (Devlin et al., 2014)提出使用前馈神经网络对目标短语中的一个词进行预测,建立翻译模型。他们报告了一个令人印象深刻的改进,但是他们的方法仍然需要预先确定输入短语(或上下文单词)的最大长度。

尽管这并不是他们所训练的神经网络,(邹等人,2013)的作者们建议学习一种双语的单词/短语嵌入。他们使用学习嵌入来计算一对短语之间的距离,这在SMT系统中用作短语对的附加分数。

在(Chandar et al., 2014)中,训练了一个前馈神经网络,学习输入短语到输出短语的袋装词表示映射。这与提出的RNN编 Encoder–Decoder和(Schwenk, 2012)中提出的模型密切相关,只是它们对短语的输入表示是一个词包。在(Gao et al., 2013)中也提出了类似的使用单词袋装表示的方法。早些时候(Socher et al., 2011)提出了一个类似的使用两个递归神经网络的编码器解码器模型,但他们的模型仅限于单语设置,即模型重构一个输入语句。最近,在(Auli et al., 2013)中提出了另一个使用RNN的编码器解码器模型,其中解码器取决于源语句或源上下文的表示形式。

提出的RNN Encoder–Decoder与(Zou et al., 2013)和(Chandar et al., 2014)方法的一个重要区别是,考虑了源短语和目标短语中的单词顺序。RNN Encoder–Decoder自然地区分具有相同单词但顺序不同的序列,而上述方法有效地忽略了顺序信息。

 与所提出的RNN Encoder–Decoder最接近的方法是(Kalchbrenner and Blunsom, 2013)中提出的递归连续翻译模型(Model 2)。在他们的论文中,他们提出了一个由编码器和解码器组成的类似模型。与我们的模型的不同之处在于,他们使用卷积n-gram模型(CGM)作为编码器,并混合使用逆CGM和递归神经网络作为解码器。然而,他们通过对传统SMT系统提出的n-best列表重新取心和计算黄金标准翻译的复杂性来评估他们的模型

 

4 Experiments

我们评估了我们对WMT ' 14研讨会英语/法语翻译任务的做法。

4.1 Data and Baseline System

在WMT 14翻译任务的框架内,可以使用大量资源来构建英语/法语SMT系统。双语语料库包括Europarl(6100万单词)、news commentary(550万单词)、UN(421万单词)和两个爬行语料库(9000万单词)。最后两个语料库比较吵。为了训练法语语言模型,除了bitext的目标侧外,还有大约7.12亿的爬行报纸材料。所有的单词计数都是经过标记的法语单词。

人们普遍认为,将所有这些数据串联起来训练统计模型并不一定会导致最优性能,并且会导致难以处理的超大模型。相反,应该关注给定任务的最相关的数据子集。我们通过应用(Moore and Lewis, 2010)中提出的数据选择方法,并将其扩展到bitext (Axelrod et al., 2011),实现了这一点。通过这些方法,我们从超过2G的单词中选择了418M个单词作为语言建模的子集,从850M单词中选择了348M个单词作为训练RNN Encoder–Decoder的子集。我们使用2012年和2013年的测试集newstest2012和2013年的测试集进行数据选择和权重调整,使用MERT和newstest2014作为我们的测试集,每个测试集有7万多个单词和一个参考译文。

为了训练神经网络,包括提出的RNN Encoder–Decoder,我们将源词汇和目标词汇限制在英语和法语中最常见的15,000个单词。这涵盖了大约93%的数据集。所有词汇表外的单词都映射到一个特殊的标记([UNK])。

基于基本短语的SMT系统是使用默认设置Moses构建的。该系统在开发集和测试集上分别获得了30.64和33.3的BLEU评分(见表1)。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

4.1.1 RNN Encoder–Decoder

实验中使用的RNN Encoder–Decoder有1000个隐藏单元,在编码器和解码器上都有门。将每个输入符号xhti与隐藏单元之间的输入矩阵近似为两个低秩矩阵,并对输出矩阵进行近似类似的。我们使用秩-100矩阵,相当于学习每个单词的维数为100的嵌入。式(8)中h~的**函数为双曲正切函数。从解码器的隐藏状态到输出的计算被实现为一个深度神经网络(Pascanu et al., 2014),单个中间层有500个maxout单元,每个池中有2个输入(Goodfellow et al., 2013)。

RNN Encoder–Decoder中的所有权值参数均采用各向同性零均值(白色)高斯分布采样初始化,其标准差固定为0:01,除了重复权值参数。对于递归权矩阵,我们首先从一个高斯白分布中采样,并使用其左奇异向量矩阵,如下(Saxe et al., 2014)。

我们使用Adadelta和随机梯度下降训练RNN Encoder–Decoder hyperparameters = 10 6和ρ= 0:95 (Zeiler, 2012)。在每次更新时,我们使用从短语表中随机选择的64对短语对(短语表是由3.48亿个单词创建的)。这个模型接受了大约三天的训练。

实验中使用的结构细节在补充材料中有更深入的解释。

4.1.2 Neural Language Model

为了评估RNN Encoder–Decoder对短语对评分的有效性,我们还尝试了一种更传统的方法,即使用神经网络学习目标语言模型(CSLM) (Schwenk, 2007)。特别地,将使用CSLM的SMT系统与使用RNN Encoder–Decoder的短语评分方法进行比较,可以明确SMT系统中不同部分的多个神经网络的贡献是累加的还是冗余的。

我们在目标语料库的7克上训练CSLM模型。将每个输入的单词投影到嵌入空间R512中,并将它们串联起来形成一个3072维的向量。连接后的向量通过两个整流层(大小分别为1536和1024)输入(Glorot et al., 2011)。输出层为简单的softmax层(见式(2))。所有权重参数均在0:01 ~ 0:01之间均匀初始化,并对模型进行训练,直到验证的困惑度10个时段没有改善为止。训练后,语言模型的困惑度为45.80。验证集是对0.1%语料库的随机选择。该模型用于解码过程中对部分翻译进行评分,通常会比n-best list rescoring获得更高的BLEU评分(Vaswani et al., 2013)。

为了解决在解码器中使用CSLM的计算复杂性,在解码器执行stacksearch期间,使用缓冲区来聚合n个g。只有当缓冲区满了,或者堆栈即将被修剪时,CSLM才会对n-gram进行评分。这使得我们可以使用Theano在GPU上执行快速矩阵矩阵乘法(Bergstra et al., 2010;Bastien等,2012)。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

4.2 Quantitative Analysis

结果如表1所示。正如预期的那样,添加由神经网络计算的特性可以不断地提高性能。当我们同时使用CSLM和RNN Encoder–Decoder的短语评分时,可以获得最佳的性能。这说明CSLM和RNN Encoder–Decoder的贡献不太相关,单独改进这两种方法可以得到更好的结果。此外,我们尝试惩罚神经网络未知的单词数量(即不在候选列表中的单词)。我们通过简单地将未知单词的数量作为一个附加特性添加到式(9)中的对数线性模型中来实现这一点。然而,在这种情况下我们无法在测试集上获得更好的性能,而只能在开发集上获得更好的性能。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

4.3 Qualitative Analysis

为了了解性能改进的来源,我们分析了由RNN Encoder–Decoder计算的短语对翻译模型中对应的p(f j e)的评分。由于现有的翻译模型仅仅依赖于语料库中短语对的统计,我们希望对频繁出现的短语进行更好的估计,而对罕见短语的估计则较差。此外,正如我们在第3.1节前面提到的,我们进一步期望RNN Encoder–Decoder在没有任何频率信息的情况下训练,根据语言规则而不是语料库中出现的短语对进行评分。

我们关注那些源短语很长(每个源短语超过3个单词)和频率。对于每一个这样的源短语,我们都要查看被翻译概率p(f j e)或RNN Encoder–Decoder评分较高的目标短语。同样,我们对那些源短语很长但在语料库中很少见的对执行相同的过程。

表2列出了翻译模型或RNN Encoder–Decoder支持的每个源短语的前3个目标短语。源短语是从4到5个单词以上的长短语中随机抽取的。

在大多数情况下,RNN编 Encoder–Decoder对目标短语的选择更接近于实际翻译或字面翻译。我们可以看到,RNN Encoder–Decoder一般更喜欢较短的短语。

有趣的是,许多短语对得分同样的翻译模型和RNN Encoder–Decoder,但也有许多其他短语对得分截然不同(见图3)。这可能源于该方法训练RNN的编码器译码器在一组独特的短语对,阻止RNN Encoder–Decoder从学习简单的频率从语料库词对,如前所述。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

此外,在表3中,我们为表2中的每个源短语显示了从RNN Encoder–Decoder生成的示例。对于每个源短语,我们生成了50个样本,并根据它们的得分显示前5个短语。我们可以看到,RNN Encoder–Decoder能够在不查看实际短语表的情况下提出格式良好的目标短语。重要的是,生成的短语并不完全与短语表中的目标短语重叠。这鼓励我们进一步研究替换短语表的整个或部分的可能性在此基础上,提出了一种新的RNN Encoder–Decoder。

 

4.4 Word and Phrase Representations

由于所提出的RNN Encoder–Decoder并不是专门针对机器翻译任务而设计的,所以我们在这里简要地看一下所训练模型的性质。

众所周知,使用神经网络的连续空间语言模型能够学习语义上有意义的嵌入(如Bengio等,2003;Mikolov等,2013))。由于所提出的RNN Encoder–Decoder也可以将字序列投射到连续空间向量,并将其映射回连续空间向量,因此我们期望所提出的模型也具有类似的性质。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

图4左边的图显示了使用RNN Encoder–Decoder学习的单词嵌入矩阵对单词进行二维嵌入。该预测是由最近提出的BarnesHut-SNE (van der Maaten, 2013)完成的。我们可以清楚地看到,语义上相似的单词彼此聚集在一起(参见图4中的放大图)。这种情况下的表示(图1中的c)是一个1000维的向量。与单词表示类似,我们使用图5中的bar - hut - sne可视化由四个或更多单词组成的短语的表示。

(24) GRU & S2S:Learning Phrase Representations using RNN Encoder–Decoder for SMT

从可视化结果可以看出,RNN Encoder–Decoder同时捕获了短语的语义结构和句法结构。例如,在左下角的图中,大多数短语是关于持续时间的,而那些在语法上相似的短语则聚集在一起。右下角的图表显示了语义相似(国家或地区)的短语集群。另一方面,右上角的图表显示了语法上相似的短语。

 

5 Conclusion

在本文中,我们提出了一种新的神经网络结构,称为RNN Encoder–Decoder,它能够从任意长度的序列映射到另一个序列,可能是从另一个不同的集合映射到任意长度的序列。所提出的RNN Encoder–Decoder既可以对一对序列进行评分(根据条件概率),也可以生成给定源序列的目标序列。随着新体系结构的出现,我们提出了一种新的隐藏单元,它包括一个重置门和一个更新门,可以自适应地控制每个隐藏单元在读取/生成序列时记住或忘记的内容。

我们以统计机器翻译的任务来评估所提出的模型,使用RNN Encoder–Decoder对短语表中的每个短语对进行评分。定性分析表明,该模型能够很好地捕捉短语对的语言规律,并且RNN Encoder–Decoder能够提出结构良好的目标短语。

研究发现,采用RNN Encoder–Decoder的译码分数可以提高整体翻译性能。此外,我们发现RNN Encoder–Decoder的贡献与现有的在SMT系统中使用神经网络的方法是相当正交的,因此我们可以通过将RNN Encoder–Decoder和神经网络语言模型结合使用来进一步提高性能。

我们对训练后的模型的定性分析表明,它确实在多个层面上捕捉到了语言规律,即单词层面和短语层面。这表明,有可能有更多的自然语言相关的应用程序,可能受益于拟议的RNN Encoder–Decoder。

提出的体系结构有很大的改进和分析潜力。这里没有研究的一种方法是通过让RNN Encoder–Decoder提出目标短语来替换短语表的整体或部分。此外,值得注意的是,所提出的模型并不局限于与书面语言的使用,它将是一个重要的未来研究应用于其他应用,如语音转录。