Attention-based Model其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。

严格来说，Attention并算不上是一种新的model，而仅仅是在以往的模型中加入attention的思想，所以Attention-based Model或者Attention Mechanism是比较合理的叫法，而非Attention Model。
没有attention机制的encoder-decoder结构通常把encoder的最后一个状态作为decoder的输入（可能作为初始化，也可能作为每一时刻的输入），但是encoder的state毕竟是有限的，存储不了太多的信息，对于decoder过程，每一个步骤都和之前的输入都没有关系了，只与这个传入的state有关。

attention机制的引入之后，decoder根据时刻的不同，让每一时刻的输入都有所不同。【普通的模型可以看成所有部分的attention都是一样的，而这里的attention-based model对于不同的部分，重要的程度则不同。】

Attention机制

初始化解码器端的隐含状态（z0，initial_state），将z0与encoder端的h0,h1,h2,h3分别做match计算，得到每一个timestep的 match score,然后利用softmax 将match score 归一化到（0，1）,那么我们可以根据归一化的match score 计算出加权向量和，即c0，然后利用c0和z0作为RNN的输入计算得到z1。

Attention机制应用

https://blog.csdn.net/yideqianfenzhiyi/article/details/79422857

学习权重分布：输入数据或特征图上的不同部分对应的专注度不同[原图，特征图，不同通道等方面]

任务聚焦

参考
https://blog.csdn.net/baidu_36161077/article/details/81066001

http://mini.eastday.com/mobile/171227123803276.html#

https://blog.csdn.net/guohao_zhang/article/details/79540014

Attention机制

Attention机制应用

相关推荐