Transformer论文详解，论文完整翻译（四）

第三章模型结构（一）

许多竞争网络序列转换模型有encoder-decoder结构。encoder映射是将输入的符号序列表示（x1,…,xn）转换成一个序列连续的表示 z。给出z后，decoder生成一个输出序列（y1,…,yn）每个元素一个符号。每一步，模型都是自动递归的，在生成下一个符号时，使用之前生成的符号进行计算。

Transformer使用了这种总体结构，使用多层self-attention和point的方式，对encoder和decoder进行了完全的连接，详见图1。
Transformer论文详解，论文完整翻译（四）

3.1 encoder和decoder层

encoder：
Encoder由6个相同的层叠在一起构成。每层包括两个子层。第一个子层是multi-head attention结构，第二个子层比较简单，位置相关的全连接前馈网络。我们使用了一个残差连接在每两个子层间，通过每一层的归一化。具体来说，每层的输出变成了Norm（x + sublayer（x））, 其中sublayer（x）是这个子层自身的函数。为了便于使用这些残差连接，模型中的所有子层，包括embedding层，维度都是512维。

Decoder同样由6个相同的层叠在一起构成。除了类似于每个encoder层的两个子层，decoder加入了第三个子层，用来表示输出对于encoder的attention。和encoder相同，我们在每两个子层间使用了残差连接，再进行每层的归一化。我们也修改了decoder阶段子层的self-attention，阻止了对下文信息对关注。这种mask，结合了实际，在每个位置输出后消失，确保我们对于位置i的预测信息只依赖于位置i之前的信息（已知的输出信息）。

（未完待续）
（本人总结，请勿转载）

Transformer论文详解，论文完整翻译（四）

相关推荐