Attention小结

在论文1中提出了一种用来处理机器翻译任务的新模型 Encoder–Decoder Model 。

[外链图片转存失败(img-mzXcN5Vl-1567470086699)(./pics/encoddecod.png)]

编码器将输入源语言句子 $x = (x_1 ,...,x _T)$ 编码为一个固定长度的语义向量 C。

$h_t = f (x_t , h_{t−1})$

$C = h_T$
解码器翻译每个词时，语义向量 C 都会参与其中的计算。

$s_t = g(s_{t-1}, y_{t-1}, C)$ ，其中 $s_{t}$ 是解码器中RNN在 $t$ 时刻的隐状态

不过该模型有明显的缺点：

Encoder–Decoder Model 中的编码器和解码器一般不是固定的，可以为 RNN、CNN、Attention。

为了解决以上的几个问题，论文2中在Encoder–Decoder Model的基础上提出了一种新的对齐机制，也就是注意力机制，该文章提出的为 Soft-Attention，当然也是用在机器翻译任务中。

[外链图片转存失败(img-SLbKcGMS-1567470086701)(./pics/softatten.png)]

对与第二点语义向量 $C_i$ 的产生，以下详细说明。

很多文章把 Attention机制看作是查表操作，如下图所示：

Attention小结

Query 是 $s_{t-1}$ ，Key和Value相同，代表每一个 $h_{i}$ 。通过计算Query和各个Key的相似性，得到每个Key对应Value的权重 $\alpha$ ，然后对Value进行加权求和，即得到了最终的Attention数值，即 $C_i$ 。

Attention的整体计算流程如下：

Attention小结

还有一种 Self-Attention，这个在 Transformer模型中介绍。

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Neural Machine Translation by Jointly Learning to Align and Translate

ine Translation

Neural Machine Translation by Jointly Learning to Align and Translate