注意力模型
- RNN原理理解
- 注意力模型初见
- 注意力模型的思考
1.RNN原理理解
前面曾写过两篇文章,详细讲解了RNN的原理:循环神经网络(RNN)原理通俗解释,以及它的高级版本LSTM:循环神经网络(RNN)之LSTM
这是它的原理图,你会发现,
2.注意力模型初见
注意力模型是个什么东西呢?这篇论文值得一看
如图,你会发现在左边第一张图中,文本在描述一个女人在扔__什么的时候,被扔的这个东西在第二张图中被标为高亮,这就是所谓注意力。它会查找图中的相应区域,然后在句子中完成填空。
3.注意力模型的思考
在这篇文章中循环神经网络(RNN),我简单得提过了看图说话,但很多人发现这样的结构,训练出来的模型效果不是很好,因此就有很多人就针对它的缺点进行改进。
改进:在看图说话中,我们的图像数据只在第一次训练的时候给模型看了一下,相当于让模型记住这些数据。这就相当于我们平时考试的时候,是闭卷考试一样,既然有闭卷,那就肯定有开卷考试嘛,所以注意力模型就想能不能每次训练都可以把图像数据给模型,就像我们考试的时候,用到什么知识,就自己在课本里找一样。
但同时,也带来了一个问题,就是模型应该怎么查找呢?
1.首先,我们需要一个模型把图像的特征抽取出来是吧,在论文中,作者用的是VGG的CNN来抽取特征的,而且,是在卷积层抽取的,LXD。
其中L是14X14的feature map,D表示有多少个feature map的厚度,有多少个feature map.
不同的滑动窗口给不同的权重,就更能体现注意力。
14X14=196,把每个feature map展开,就可以变成1X196的向量,他们代表图像中的不同位置,为了聚焦到某一位置,是不是可以用sofemax来生成一个196X1的概率向量,权值越大,说明越聚焦在那个地方。
每个cell:有两个softmax,一个用来产出一个196X1的概率向量给图像看当前位置应该聚焦在哪里,一个softmax用来产出下一个词出现的概率。