第四十周学习笔记

第四十周学习笔记

论文阅读

内容概述

  • Show and Tell: A Neural Image Caption Generator
    • 提出了image caption 的 cnn encoder + rnn decoder的基本形式
  • Deep Visual-Semantic Alignments for Generating Image Descriptions
    • 目标变为生成caption及其对应的region
    • 图像由RCNN提供的proposal编码成多个feature,inference时的region也由RCNN生成
    • 利用弱标签生成强标签供模型学习,思想是对应的image和sentence的region和word之间的match程度强于不对应的image和sentence,在此基础上以margin loss作为目标学习,拉高对应数据的match得分,拉低不match的得分
  • Image Captioning with Semantic Attention
    • 使用attention将图像的CNN feature和Attribute detector检测到的属性词综合到一起作为decoder的输入,前者是top-down的方法,后者是bottom-up的方法,从而结合了两个方法的优点
    • Attribute detector,可以利用网上大量的有tab的数据,用CNN编码先把图片编码成向量,然后利用最近邻算法得到图像所包含的属性,或者用神经网络在数据集上学习
    • 利用input attention 和output attention来综合第一步提取到的信息
    • 对attention作了正则化,让加权向量分布具有完备性和差异性
  • Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
    • image feature从卷积层中提取针对不同spatial position的feature,是一个向量集合而不是单个向量
    • lstm的初始状态通过MLP学习得到
    • Attention机制分为hard和soft两种,加权到不同spatial position的feature上
  • Auto-Encoding Scene Graphs for Image Captioning
    • 将language inductive bias 融合到了image caption中,通过重建sentence学习字典完成
    • 使用scene graph利用抽象符号推理出caption
    • 生成的caption表达形式更好,模型对语言有很好的理解

提及的数据集

  • PASCAL xfer
  • Flickr30k:包括31783张由总计158915个caption标注的图片,数据集作者在此基础上创建了denotation graph
    第四十周学习笔记
  • Flickr8k
  • SBU
  • MSCOCO2014:微软提供的一个可以做recognition,segmentation,captioning 的数据集
    第四十周学习笔记

提及的Metric

模型对比

MS-COCO2014

模型 时间 BLEU1 BLEU2 BLEU3 BLEU4 METEOR CIDEr
NIC 2015 - - - 27.7 23.7 85.5
Deep visual 2015 62.5 45.0 32.1 23.0 19.5 66.0
Soft-Attention 2016 70.7 49.2 34.4 24.3 23.90
Hard-Attention 2016 71.8 50.4 35.7 25.0 23.04
ATT-FCN 2016 70.9 53.7 40.2 30.4 24.3
SGAEfuseSGAE_{fuse} 2018 81.0 - - 39.0 28.4 129.1(-D)

Flickr30k

模型 时间 BLEU1 BLEU2 BLEU3 BLEU4 METEOR
NIC 2015 - - - - -
Deep visual 2015 57.3 36.9 24.0 15.7 -
Soft-Attention 2016 66.7 43.4 28.8 19.1 18.49
Hard-Attention 2016 66.9 43.9 29.6 19.9 18.46
ATT-FCN 2016 64.7 46.0 32.4 23.0 18.9
SGAE 2018 - - - - -

问题

为什么不同论文里面NIC的metric不一样?
NIC没有给MSCOCO的BLEU2~3以及flick30k上的结果,为什么别的论文里有?

下周计划

  • 读完基础论文
  • 跑通Bottom-up…的代码