Neural Baby Talk

写下自己的理解。

Neural Baby Talk

1 Visual word,上图中的dog,cake就是visual word,也就是detector检测到的物体的词汇。

  Text Word,“is on with”就是text word,也就是与视觉没有关系的词汇,“自己生成的吗?”

2 主要贡献——提出一个框架,能够生成(基于检测到的实体的)自然语言。

方法=slot+神经描述方法

3 我们的方法能够产生一些train中没有的新词汇。

4 实现细节

first,检测模型——Faster R-CNN+ResNet-101得到图像的候选区域。

second,区域特征——预训练的ResNet-101

third,语言模型——具有2层LSTM的注意力模型

forth,优化——Adam

fifth,数据集——Flickr30k。使用来Stanford part-of-speech tagger(斯坦福词性标注器),Lemmatization Toolbox(词性还原工具包)

 需要理解的东西

Point Network——使用其来调节基于内容的注意力机制。

visual sentinel——《knowing when to look》添加visual sentinel作为潜在变量来为textual word充当一个dummy grounding

Adam——优化

constrained beam search——使模型能够产生“orange”“bird”等