Transformer论文详解,论文完整翻译(四)
Transformer论文详解,论文完整翻译(四)
第三章 模型结构(一)
许多竞争网络序列转换模型有encoder-decoder结构。encoder映射是将输入的符号序列表示(x1,…,xn)转换成一个序列连续的表示 z。给出z后,decoder生成一个输出序列(y1,…,yn)每个元素一个符号。每一步,模型都是自动递归的,在生成下一个符号时,使用之前生成的符号进行计算。
Transformer使用了这种总体结构,使用多层self-attention和point的方式,对encoder和decoder进行了完全的连接,详见图1。
3.1 encoder和decoder层
encoder:
Encoder由6个相同的层叠在一起构成。每层包括两个子层。第一个子层是multi-head attention结构,第二个子层比较简单,位置相关的全连接前馈网络。我们使用了一个残差连接在每两个子层间,通过每一层的归一化。具体来说,每层的输出变成了Norm(x + sublayer(x)), 其中sublayer(x)是这个子层自身的函数。为了便于使用这些残差连接,模型中的所有子层,包括embedding层,维度都是512维。
Decoder同样由6个相同的层叠在一起构成。除了类似于每个encoder层的两个子层,decoder加入了第三个子层,用来表示输出对于encoder的attention。和encoder相同,我们在每两个子层间使用了残差连接,再进行每层的归一化。我们也修改了decoder阶段子层的self-attention,阻止了对下文信息对关注。这种mask,结合了实际,在每个位置输出后消失,确保我们对于位置i的预测信息只依赖于位置i之前的信息(已知的输出信息)。
(未完待续)
(本人总结,请勿转载)