EMNLP 2017 NMT with word prediction
文章链接:https://arxiv.org/abs/1708.01771
概述:
这篇文章针对传统的seq2seq模型decoder端的改进。
针对解决的问题:
1.传统的seq2seq模型,encoder端通过一个双向的LSTM或者GRU,生成一个固定维度的向量用来表示源端信息,我们用这个向量initial_state来表示源端的信息。因此源端所形成的initial_state在整个翻译过程中,他对源端信息表示是否正确变得尤为重要。
2在整个过程中,seq2seq模型采用反向传播的算法,由于模型的复杂性和所需要训练的参数较多,使用 BPTT反向传播算法来更新参数的过程无法直接控制这个表示向量
想法:
1.基于上面两个问题,在这篇文章中提到了在生成源端信息之后,利用这个信息来预测整个目标端的单词,这里不包含目标端词的顺序
2.在这个预测整个目标端的单词的同时,我们可以生成目标端为有可能出现的频繁单词集,用这个集合作为目标端翻译时的词汇表一方面可以提高翻译的准确率,另一方面词汇表的大小减小,可以提高翻译的效率。
3.此外,将这个词预测机制应用于decoder端翻译过程中,使得翻译时刻t的状态值St可以预测剩余没有被翻译的单词。
原理:
(1)通过initial state预测目标端单词主要采用类似于attention的一个机制:
(2)将word_prediction机制用于decoder端的过程
(3)训练过程采用的是多任务联合训练方法
(4)最后利用initial_state生成的最有可能的目标端词汇构成decoder端翻译的词汇表。