动手学深度学习Task4
机器翻译及相关技术;注意力机制与Seq2Seq模型;Transformer
1.机器翻译及相关技术
2.注意力机制与Seq2Seq模型
3.Transformer
一 机器翻译及相关技术
机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词,且 输出序列的长度可能与源序列的长度不同;输入序列长度可变,输出序列长度可变。
二 注意力机制与Seq2seq模型
2.1 注意力机制
“ 机器翻译及相关技术”中提到的Seq2Seq是一种静态的条件生成,因为在解码过程,条件永远都是context vector,这样做存在2个缺点:
当input的信息很复杂的时候,用一个context vector难以很好的描述这些信息
每次decoder都看到一样的东西,生成效果不好;
attention机制出现了,它可以在decoder的每一步只关注对当前词来说重要的信息,是一种动态的条件生成。
2.2 seqseq模型
有了注意力机制加持的seq2seq模型,如下图所示
三 Transformer
RNN的一些变体捕捉长距离信息依然费力,而Transformer的自注意力模块理论上可以捕捉任意距离的依赖关系。