Stanford 深度自然语言处理 学习笔记(十)

Stanford 深度自然语言处理 学习笔记(十)

 

注意力机制

为各隐层节点分配不同的注意力(权重)。可按需访问隐层状态。

利用注意力模型在源和目标之间建立隐式的关联。可以看成一种对齐。

打分函数————>分数—softmax—>权重。加权和就是上下文向量。

Stanford 深度自然语言处理 学习笔记(十)

用到了编码器的全部隐层状态信息。不同时刻分配的权重不同。

Stanford 深度自然语言处理 学习笔记(十)

第二种方法使ht和hs形成更复杂的交互。第三种方法使用单层神经网络,ht和hs没有交互。

Stanford 深度自然语言处理 学习笔记(十)

 

coverage机制