Attention机制

Attention-based Model其实就是一个相似性的度量,当前的输入与目标状态越相似,那么在当前的输入的权重就会越大,说明当前的输出越依赖于当前的输入。

严格来说,Attention并算不上是一种新的model,而仅仅是在以往的模型中加入attention的思想,所以Attention-based Model或者Attention Mechanism是比较合理的叫法,而非Attention Model。 
没有attention机制的encoder-decoder结构通常把encoder的最后一个状态作为decoder的输入(可能作为初始化,也可能作为每一时刻的输入),但是encoder的state毕竟是有限的,存储不了太多的信息,对于decoder过程,每一个步骤都和之前的输入都没有关系了,只与这个传入的state有关。

attention机制的引入之后,decoder根据时刻的不同,让每一时刻的输入都有所不同。【普通的模型可以看成所有部分的attention都是一样的,而这里的attention-based model对于不同的部分,重要的程度则不同。

Attention机制

 

Attention机制

Attention机制

Attention机制

 

Attention机制

初始化解码器端的隐含状态(z0,initial_state),将z0与encoder端的h0,h1,h2,h3分别做match计算,得到每一个timestep的 match score,然后利用softmax 将match score 归一化到(0,1),那么我们可以根据归一化的match score 计算出加权向量和,即c0,然后利用c0和z0作为RNN的输入计算得到z1。

 

Attention机制应用

https://blog.csdn.net/yideqianfenzhiyi/article/details/79422857

学习权重分布:输入数据或特征图上的不同部分对应的专注度不同[原图,特征图,不同通道等方面]

任务聚焦

参考
https://blog.csdn.net/baidu_36161077/article/details/81066001 

http://mini.eastday.com/mobile/171227123803276.html#

https://blog.csdn.net/guohao_zhang/article/details/79540014