Attention机制论文阅读——global attention和local attention

论文名字：Effective Approaches to Attention-based Neural Machine Translation

这篇文章提出了两种attention机制：全局attention机制和局部attention机制（区别在于关注的是所有encoder状态还是部分encoder状态）

文章中计算context向量的过程：

通过两种attention机制得到上下文向量：

Global Attention:

主要思想是考虑所有的编码器的隐藏层状态。

Attention机制论文阅读——global attention和local attention

Attention机制论文阅读——global attention和local attention 是一个长度可变的alignment vector，长度等于编码器部分时间序列的长度。它通过对比当前的解码器隐藏层状态和每一个编码器隐藏层的状态得到：

Attention机制论文阅读——global attention和local attention

Attention机制论文阅读——global attention和local attention 是一个解码器状态和一个编码器状态对比得到的。在这里，socre是一个基于内容的函数，可以通过如下三个方法实现：

Attention机制论文阅读——global attention和local attention

通过将所有的 Attention机制论文阅读——global attention和local attention 整合成一个权重矩阵，得到Wa，即可计算得到：

Attention机制论文阅读——global attention和local attention

对 Attention机制论文阅读——global attention和local attention 做一个加权平均操作即可得到contex向量，然后继续进行后续步骤。

Local Attention:

global attention在计算每一个解码器的状态时需要关注所有的编码器输入，计算量比较大。

Attention机制论文阅读——global attention和local attention

local attention机制选择性的关注于上下文所在的一个小窗口，这能减少计算代价。

在这个模型中，对于是时刻t的每一个目标词汇，模型首先产生一个对齐的位置（aligned position） Attention机制论文阅读——global attention和local attention ，context向量由编码器中一个集合的隐藏层状态计算得到，编码器中的隐藏层包含在窗口中，D的大小通过经验选择。因此，global attention和local attention中一个区别就是：前者中对齐向量 Attention机制论文阅读——global attention和local attention 的大小是可变的，大小决定于编码器部分输入序列的长度，而后者中context向量的大小是固定的，。文章中提出了模型的两个变种：