Neural Baby Talk

写下自己的理解。

Neural Baby Talk

1 Visual word，上图中的dog，cake就是visual word，也就是detector检测到的物体的词汇。

Text Word，“is on with”就是text word，也就是与视觉没有关系的词汇，“自己生成的吗？”

2 主要贡献——提出一个框架，能够生成（基于检测到的实体的）自然语言。

方法=slot+神经描述方法

3 我们的方法能够产生一些train中没有的新词汇。

4 实现细节

first，检测模型——Faster R-CNN+ResNet-101得到图像的候选区域。

second，区域特征——预训练的ResNet-101

third，语言模型——具有2层LSTM的注意力模型

forth，优化——Adam

fifth，数据集——Flickr30k。使用来Stanford part-of-speech tagger（斯坦福词性标注器），Lemmatization Toolbox（词性还原工具包）

需要理解的东西

Point Network——使用其来调节基于内容的注意力机制。

visual sentinel——《knowing when to look》添加visual sentinel作为潜在变量来为textual word充当一个dummy grounding

Adam——优化

constrained beam search——使模型能够产生“orange”“bird”等