第四十周学习笔记

论文阅读

内容概述

Show and Tell: A Neural Image Caption Generator
- 提出了image caption 的 cnn encoder + rnn decoder的基本形式
Deep Visual-Semantic Alignments for Generating Image Descriptions
- 目标变为生成caption及其对应的region
- 图像由RCNN提供的proposal编码成多个feature，inference时的region也由RCNN生成
- 利用弱标签生成强标签供模型学习，思想是对应的image和sentence的region和word之间的match程度强于不对应的image和sentence，在此基础上以margin loss作为目标学习，拉高对应数据的match得分，拉低不match的得分
Image Captioning with Semantic Attention
- 使用attention将图像的CNN feature和Attribute detector检测到的属性词综合到一起作为decoder的输入，前者是top-down的方法，后者是bottom-up的方法，从而结合了两个方法的优点
- Attribute detector，可以利用网上大量的有tab的数据，用CNN编码先把图片编码成向量，然后利用最近邻算法得到图像所包含的属性，或者用神经网络在数据集上学习
- 利用input attention 和output attention来综合第一步提取到的信息
- 对attention作了正则化，让加权向量分布具有完备性和差异性
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
- image feature从卷积层中提取针对不同spatial position的feature，是一个向量集合而不是单个向量
- lstm的初始状态通过MLP学习得到
- Attention机制分为hard和soft两种，加权到不同spatial position的feature上
Auto-Encoding Scene Graphs for Image Captioning
- 将language inductive bias 融合到了image caption中，通过重建sentence学习字典完成
- 使用scene graph利用抽象符号推理出caption
- 生成的caption表达形式更好，模型对语言有很好的理解

提及的数据集

PASCAL xfer
Flickr30k：包括31783张由总计158915个caption标注的图片，数据集作者在此基础上创建了denotation graph
Flickr8k
SBU
MSCOCO2014：微软提供的一个可以做recognition，segmentation，captioning 的数据集

提及的Metric

BLEU ↑
METEOR ↑
CIDER ↑
[email protected]
median rank
ROUGE ↑

模型对比

MS-COCO2014

模型	时间	BLEU1	BLEU2	BLEU3	BLEU4	METEOR	CIDEr
NIC	2015	-	-	-	27.7	23.7	85.5
Deep visual	2015	62.5	45.0	32.1	23.0	19.5	66.0
Soft-Attention	2016	70.7	49.2	34.4	24.3	23.90
Hard-Attention	2016	71.8	50.4	35.7	25.0	23.04
ATT-FCN	2016	70.9	53.7	40.2	30.4	24.3
$SGAE_{fuse}$	2018	81.0	-	-	39.0	28.4	129.1(-D)

Flickr30k

模型	时间	BLEU1	BLEU2	BLEU3	BLEU4	METEOR
NIC	2015	-	-	-	-	-
Deep visual	2015	57.3	36.9	24.0	15.7	-
Soft-Attention	2016	66.7	43.4	28.8	19.1	18.49
Hard-Attention	2016	66.9	43.9	29.6	19.9	18.46
ATT-FCN	2016	64.7	46.0	32.4	23.0	18.9
SGAE	2018	-	-	-	-	-

问题

为什么不同论文里面NIC的metric不一样？
NIC没有给MSCOCO的BLEU2~3以及flick30k上的结果，为什么别的论文里有？

下周计划

读完基础论文
跑通Bottom-up…的代码

第四十周学习笔记

第四十周学习笔记

论文阅读

内容概述

提及的数据集

提及的Metric

模型对比

问题

下周计划

相关推荐