第四十周学习笔记
第四十周学习笔记
论文阅读
内容概述
- Show and Tell: A Neural Image Caption Generator
- 提出了image caption 的 cnn encoder + rnn decoder的基本形式
- Deep Visual-Semantic Alignments for Generating Image Descriptions
- 目标变为生成caption及其对应的region
- 图像由RCNN提供的proposal编码成多个feature,inference时的region也由RCNN生成
- 利用弱标签生成强标签供模型学习,思想是对应的image和sentence的region和word之间的match程度强于不对应的image和sentence,在此基础上以margin loss作为目标学习,拉高对应数据的match得分,拉低不match的得分
- Image Captioning with Semantic Attention
- 使用attention将图像的CNN feature和Attribute detector检测到的属性词综合到一起作为decoder的输入,前者是top-down的方法,后者是bottom-up的方法,从而结合了两个方法的优点
- Attribute detector,可以利用网上大量的有tab的数据,用CNN编码先把图片编码成向量,然后利用最近邻算法得到图像所包含的属性,或者用神经网络在数据集上学习
- 利用input attention 和output attention来综合第一步提取到的信息
- 对attention作了正则化,让加权向量分布具有完备性和差异性
- Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
- image feature从卷积层中提取针对不同spatial position的feature,是一个向量集合而不是单个向量
- lstm的初始状态通过MLP学习得到
- Attention机制分为hard和soft两种,加权到不同spatial position的feature上
- Auto-Encoding Scene Graphs for Image Captioning
- 将language inductive bias 融合到了image caption中,通过重建sentence学习字典完成
- 使用scene graph利用抽象符号推理出caption
- 生成的caption表达形式更好,模型对语言有很好的理解
提及的数据集
- PASCAL xfer
-
Flickr30k:包括31783张由总计158915个caption标注的图片,数据集作者在此基础上创建了denotation graph
- Flickr8k
- SBU
-
MSCOCO2014:微软提供的一个可以做recognition,segmentation,captioning 的数据集
提及的Metric
- BLEU ↑
- METEOR ↑
- CIDER ↑
- [email protected]
- median rank
- ROUGE ↑
模型对比
MS-COCO2014
模型 | 时间 | BLEU1 | BLEU2 | BLEU3 | BLEU4 | METEOR | CIDEr |
---|---|---|---|---|---|---|---|
NIC | 2015 | - | - | - | 27.7 | 23.7 | 85.5 |
Deep visual | 2015 | 62.5 | 45.0 | 32.1 | 23.0 | 19.5 | 66.0 |
Soft-Attention | 2016 | 70.7 | 49.2 | 34.4 | 24.3 | 23.90 | |
Hard-Attention | 2016 | 71.8 | 50.4 | 35.7 | 25.0 | 23.04 | |
ATT-FCN | 2016 | 70.9 | 53.7 | 40.2 | 30.4 | 24.3 | |
2018 | 81.0 | - | - | 39.0 | 28.4 | 129.1(-D) |
Flickr30k
模型 | 时间 | BLEU1 | BLEU2 | BLEU3 | BLEU4 | METEOR |
---|---|---|---|---|---|---|
NIC | 2015 | - | - | - | - | - |
Deep visual | 2015 | 57.3 | 36.9 | 24.0 | 15.7 | - |
Soft-Attention | 2016 | 66.7 | 43.4 | 28.8 | 19.1 | 18.49 |
Hard-Attention | 2016 | 66.9 | 43.9 | 29.6 | 19.9 | 18.46 |
ATT-FCN | 2016 | 64.7 | 46.0 | 32.4 | 23.0 | 18.9 |
SGAE | 2018 | - | - | - | - | - |
问题
为什么不同论文里面NIC的metric不一样?
NIC没有给MSCOCO的BLEU2~3以及flick30k上的结果,为什么别的论文里有?
下周计划
- 读完基础论文
- 跑通Bottom-up…的代码