Baby Talk: Understanding and Generating Simple Image Descriptions
论文名称:Baby Talk: Understanding and Generating Simple Image Descriptions
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6522402
2013年 TPAMI
这篇论文主要介绍的就是基于模板的caption生成方法。而且也是经典文章之一。
- 检测对象属性和介词,并通过CRF共同推理出一个合适的单词填入槽中
- baby talk 所需要的信息总的来说需要三部分的信息:
1)object信息(名词)
2)object的相对位置关系(介词)
3)object的附加信息的修饰词(形容词)![]()
使用baby talk的方法生成caption语句的效果图
整体结构图
- 1、object & stuff 检测器检测出候选对象,object:图像的对象检测器,stuff:图像的背景检测器
- 2、每个候选区域由一组属性分类器处理
- 3、两个候选对象之间的关系(由介词关系函数处理)
- 4、CRF是构造包含由1)-3)计算的一元图像电势,以及从大文档语料库计算的基于高阶文本的电势,
(CRF[条件随机场]推断对象属性和介词,得到一个合适的单词,填入槽中)- 5、预测图形的标记,语言模型预测连接词(there, is)
- 6、基于标记生成句子
句子生成用m-gran或者基于简单模板的方法
CRF结构图
- CRF引入Z变量减少成对电势 【CRF预测图像的最佳标记】
- CRF节点:①对象或者stuff(背景信息)
②修饰对象的属性
③引入对象对之间空间关系的介词- 大多数CRF只接受一元成对电势 -->三元电位引入一个Z节点,变成a set of 一元成对电势
- Template 和simple Decoding 结果对比图
CRF函数的计算公式
Templated 和简单decoding的结果对比
- 好的结果图
![]()
- 坏的结果图
![]()
为什么说是坏的结果图?
因为生成的caption语句中所检测的对象类别是错的。
生成句子错误的三个原因:
1、错误的对象检测器,导致丢失对象
2、检测出错误类别的对象检测器
3、错误的属性预测器