Baby Talk: Understanding and Generating Simple Image Descriptions

论文名称：Baby Talk: Understanding and Generating Simple Image Descriptions
论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6522402
2013年 TPAMI

这篇论文主要介绍的就是基于模板的caption生成方法。而且也是经典文章之一。

检测对象属性和介词，并通过CRF共同推理出一个合适的单词填入槽中

baby talk 所需要的信息总的来说需要三部分的信息：
1）object信息（名词）
2）object的相对位置关系（介词）
3）object的附加信息的修饰词（形容词）

使用baby talk的方法生成caption语句的效果图
Baby Talk: Understanding and Generating Simple Image Descriptions

整体结构图

Baby Talk: Understanding and Generating Simple Image Descriptions

1、object & stuff 检测器检测出候选对象，object:图像的对象检测器，stuff：图像的背景检测器

2、每个候选区域由一组属性分类器处理

3、两个候选对象之间的关系（由介词关系函数处理）

4、CRF是构造包含由1)-3)计算的一元图像电势，以及从大文档语料库计算的基于高阶文本的电势，
（CRF[条件随机场]推断对象属性和介词，得到一个合适的单词，填入槽中）

5、预测图形的标记，语言模型预测连接词（there， is）

6、基于标记生成句子
句子生成用m-gran或者基于简单模板的方法

CRF结构图

Baby Talk: Understanding and Generating Simple Image Descriptions

CRF引入Z变量减少成对电势【CRF预测图像的最佳标记】

CRF节点：①对象或者stuff（背景信息）
②修饰对象的属性
③引入对象对之间空间关系的介词

大多数CRF只接受一元成对电势 -->三元电位引入一个Z节点，变成a set of 一元成对电势

Template 和simple Decoding 结果对比图

CRF函数的计算公式
Baby Talk: Understanding and Generating Simple Image Descriptions