PPP:Joint Pointwise and Pairwise Image Label Prediction 解读
PPP:Joint Pointwise and Pairwise Image Label Prediction 是CVPR2016的一篇文章,提出将pointwise(单标签)和pairwise label (对标签)结合起来进行图像标注词的预测。本文对该文章进行翻译和解读。
摘要
摘要部分主要阐述了本文的motivation。
pointwise label和pairwise label通常被分开考虑,两者之间潜在的联系成为了本文的motivation。基于从单-对标签双向图中提取的重叠组结构,本文提出了一个全新的框架PPP(pointwise and pairwise image label prediction)。实验表明该框架取得了目前的最好结果。
1 introduction
说明:本部分不是逐字逐句翻译,结合自己的理解进行解读
绪论部分,首先解释了什么是pointwise label,什么是pairwise label。基于标签种类的不同,把有监督视觉任务分成两类——pointwise 方法和pairwise 方法。在图像标注中,pointwise 方法针对一张图片而言,判断一张图像是否有特定的标注词;而pairwise方法是判断一张图像与另一张图像对比,是否有更大或更小的可能性拥有特定标注词。如下图所示,“4 door”更适合作为一个pointwise label,因为一辆汽车是否是4门的,是一个客观而明确的事实;而“sporty”会更适合作为pairwise label,因为很难判断中间这辆车是否是运动风,但是我们可以很确定地判断出,中间这辆车比左边这两更具有运动风,比右边这辆更不具运动风。
接下来,从标注的复杂度(labeling complexity)和表现力(representaional capability)说明了pointwise label和pairwise label二者的优缺点。在标注的复杂度方面,如果给定10张图片,那只需要十组pointwise labels;如果是pairwise label,至少需要45组图片对比((10*9)/2)才能得到全局的排序信息。在表现力方面,pointwise label表现了一幅图像特定内容的有或者无,pairwise label表现了同一属性的关系。但如果单独使用pairwise label会引起描述的模糊。
既然pointwise labels 和pairwise labels各有千秋,本文提出了一个发现两种labels的潜在关系并融合两种labels的框架。什么是pointwise labels 和pairwise labels的潜在关系呢?从下图可以看到,“皮leather,琥珀色cognac,绑带lake up”这些标签让左边的这只鞋子有更高的分数拥有“正式”属性;而“high heel高跟”这个标签让右边这双鞋子有更低的分数拥有“comfort舒适”这个属性。反过来,如果“formal”和“comfort”拥有更高的分数,那么有更大的可能性拥有“Oxford牛津布”,较低的可能性拥有“wingtip尖头”。目前探究pointwise labels 和pairwise labels间关系的工作还没有。
本文用一种统一的双向图模型去追踪pointwise labels 和pairwise labels二者的潜在关系,将这两种labels进行融合,应用到图像标注中。文章的主要贡献如下:(1)对pointwise labels 和pairwise labels的关系进行建模和数学描述;(2)提出一个新型的联合框架PPP,同时预测图像的pointwise labels 和pairwise labels;(3)用提出的PPP框架进行实验。
文章接下来的内容中,第二章阐述了问题的定义和基本的模型。第三章描述了提出的框架和优化方法,第四章是实验,第五章是总结。
2 proposed method
论文中用到的符号以及一些定义说明:
-
X∈Rn×d :
数据集中的图像集合,n 表示图像的数量,d 表示特征的数量。 -
Yt∈Rn×c1 和Yc∈Rn×c3 :
表示pointwise label,分别表示data-tag和data-label。Y(i,j)=1 表示图像i 拥有第j 个标签,反而则Y(i,j)=0 。 - pairwise label的定义:
假设有训练集D ,P 表示从训练集中获取的图像对集合。在提出的框架中,给出一个基于属性q 图像对<a,b> ,如果ya≻yb ,则a 有正属性分数y(a,q,1)=|ya−yb| ,负属性分数y(a,q,2)=0 ;与此同时,b 有正属性分数y(b,q,1)=0 以及负属性分数y(b,q,2)=|ya−yb| 。
因此,pairwise label定义为Yr∈Rm×c2 ,其中,m 表示从训练样本中得到的图像对的数目,c2=2q ,q 表示属性的数目。例如,令<a,b> 是第一对图像对,pairwise labelYr(1,2(q−1)+1) 表示ya≻yb 的程度,而Yr(1,2(q−1)+2) 表示ya≺yb 的程度。
2.1 Baseline models
在提出的框架中,pointwise label用于分类和标注任务。对于分类,假设有一个线性分类器
对于标签标注,同样假设有一个线性分类器
对于基于pairwise label的方法,一个简单有效的方案就是Rank SVM,该方法用一个预测函数作用于一组未知的数据,目的是以尽量小的损失学习得到一个模型
注意,我们虽然可以通过把上面的各个目标函数直接相加得到一个统一的模型,但是这样一个模型中各个部分本质上还是独立的(虽然我们通过权重在他们之间进行了权衡),因为各个部分之间并没有明确的关系。
2.2 探索pointwise和pairwise标签间的关系
在上文中,我们利用pointwise label和pairwise label定义了三种任务。探究pointwise label和pairwise label间的关系有利于我们找到一个同时融合类别,标注词和排序的联合框架。
注:这里,一张图的信息包含类别labels(一个大的类别),标签tags(图像的客观特征),属性attribute(图像的主观特征)
首先,属性和标签的关系描述为二分图,如下图所示。假设
注:这里属性和标签与pointwise label和pairwise label的关系如下:标签用pointwise label可以表达出来,而属性需要用pairwise label表达
我们可以应用任何社区探测算法去确认二分图中的组。本文中我们使用一个非常简单的方法从二分图中提取组——对于第
类似地,我们建立二分图去发现属性和类别间的潜在关系。文献[21]指出,标签和类别的共生关系夜莺考虑。因此,我们建立了一个混合的二分图来提取间类别,标签和属性的组信息。组正则化
2.3 提出的框架
通过应用二分图,提出的框架相当于解决下面的优化问题:
3 PPP的优化方法
因为组结构有重叠,所以直接求解目标函数很困难,我们用ADMM方法优化这个目标函数。首先,我们介绍两个辅助变量
上式可以用下面的ADMM问题解决:
接下来是用ADMM的解法去解决这个目标函数。
接下来的优化内容,语言上理解不难,主要是数学上的理解。翻译不是很必要,不再翻译该部分的内容。步骤大概是:
3.1 更新
3.2 更新
3.3 更新
3.4 更新
最后的算法如下:
输入:
输出:每个实例的
1、初始化随机样本训练集
2、设置
3、预计算特征分解
4、重复
5、计算
6、分别通过公式(16)(21)(18)更新
7、计算
8、更新
9、更新
10、直到收敛
11、用
接下来是
3.5 收敛性分析
3.6 时间复杂度分析
4 实验
介绍了数据库和对比算法之后,分两部分进行实验,一部分针对pointwise label,一部分针对pairwise label。实验表现,应用pointwise label和pairwise label间的关系,对两种标签的预测都是有利的