Sequence to Sequence Learning with Neural Networks学习笔记

论文的主要创新点

提出了序列到序列的学习方法

提出的背景
DNN的限制:

输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验

单个RNN 的限制:

输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic

解决方案
两个RNN理论可行

一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列map为target sequence .
但是由于long term depencies 难以训练

两个LSTM 可行
  • 同时将输入inverse ,效果更好,作者认为:introduction many short dependence because of minimal time lag
  • 可以感知语序,和语义,语义近,距离近。representative sensitive to the orders of words,对主动语态和被动语态影响不大。
  • Sequence to Sequence Learning with Neural Networks学习笔记
Related work

此工作与[18] N. Kalchbrenner and P. Blunsom. Recurrent continuous translation models. In EMNLP, 2013.紧密相关,其首次实现sentence to vector to sentence ,区别在于,使用CNN map 句子 to 向量,且没有考虑句子的语序。

[5] K. Cho, B. Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Arxiv preprint arXiv:1406.1078,
2014.

[2] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate.
arXiv preprint arXiv:1409.0473, 2014