Baby Talk: Understanding and Generating Simple Image Descriptions


论文名称:Baby Talk: Understanding and Generating Simple Image Descriptions
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6522402
2013年 TPAMI


这篇论文主要介绍的就是基于模板的caption生成方法。而且也是经典文章之一。


  • 检测对象属性和介词,并通过CRF共同推理出一个合适的单词填入槽中
  • baby talk 所需要的信息总的来说需要三部分的信息:
    1)object信息(名词)
    2)object的相对位置关系(介词)
    3)object的附加信息的修饰词(形容词)
    Baby Talk: Understanding and Generating Simple Image Descriptions

使用baby talk的方法生成caption语句的效果图
Baby Talk: Understanding and Generating Simple Image Descriptions

整体结构图

Baby Talk: Understanding and Generating Simple Image Descriptions

  • 1、object & stuff 检测器检测出候选对象,object:图像的对象检测器,stuff:图像的背景检测器
  • 2、每个候选区域由一组属性分类器处理
  • 3、两个候选对象之间的关系(由介词关系函数处理)
  • 4、CRF是构造包含由1)-3)计算的一元图像电势,以及从大文档语料库计算的基于高阶文本的电势
    (CRF[条件随机场]推断对象属性和介词,得到一个合适的单词,填入槽中)
  • 5、预测图形的标记,语言模型预测连接词(there, is)
  • 6、基于标记生成句子
    句子生成用m-gran或者基于简单模板的方法

CRF结构图

Baby Talk: Understanding and Generating Simple Image Descriptions

  • CRF引入Z变量减少成对电势 【CRF预测图像的最佳标记】
  • CRF节点:①对象或者stuff(背景信息)
    ②修饰对象的属性
    ③引入对象对之间空间关系的介词
  • 大多数CRF只接受一元成对电势 -->三元电位引入一个Z节点,变成a set of 一元成对电势
  • Template 和simple Decoding 结果对比图

CRF函数的计算公式
Baby Talk: Understanding and Generating Simple Image Descriptions
Baby Talk: Understanding and Generating Simple Image Descriptions

Templated 和简单decoding的结果对比
Baby Talk: Understanding and Generating Simple Image Descriptions

  • 好的结果图
    Baby Talk: Understanding and Generating Simple Image Descriptions
  • 坏的结果图
    Baby Talk: Understanding and Generating Simple Image Descriptions

为什么说是坏的结果图?
因为生成的caption语句中所检测的对象类别是错的。

生成句子错误的三个原因:

1、错误的对象检测器,导致丢失对象
2、检测出错误类别的对象检测器
3、错误的属性预测器