PPP：Joint Pointwise and Pairwise Image Label Prediction 解读

PPP：Joint Pointwise and Pairwise Image Label Prediction 是CVPR2016的一篇文章，提出将pointwise（单标签）和pairwise label （对标签）结合起来进行图像标注词的预测。本文对该文章进行翻译和解读。

摘要

摘要部分主要阐述了本文的motivation。
pointwise label和pairwise label通常被分开考虑，两者之间潜在的联系成为了本文的motivation。基于从单-对标签双向图中提取的重叠组结构，本文提出了一个全新的框架PPP（pointwise and pairwise image label prediction）。实验表明该框架取得了目前的最好结果。

1 introduction

说明：本部分不是逐字逐句翻译，结合自己的理解进行解读

绪论部分，首先解释了什么是pointwise label，什么是pairwise label。基于标签种类的不同，把有监督视觉任务分成两类——pointwise 方法和pairwise 方法。在图像标注中，pointwise 方法针对一张图片而言，判断一张图像是否有特定的标注词；而pairwise方法是判断一张图像与另一张图像对比，是否有更大或更小的可能性拥有特定标注词。如下图所示，“4 door”更适合作为一个pointwise label，因为一辆汽车是否是4门的，是一个客观而明确的事实；而“sporty”会更适合作为pairwise label，因为很难判断中间这辆车是否是运动风，但是我们可以很确定地判断出，中间这辆车比左边这两更具有运动风，比右边这辆更不具运动风。
PPP：Joint Pointwise and Pairwise Image Label Prediction 解读
接下来，从标注的复杂度（labeling complexity）和表现力（representaional capability）说明了pointwise label和pairwise label二者的优缺点。在标注的复杂度方面，如果给定10张图片，那只需要十组pointwise labels；如果是pairwise label，至少需要45组图片对比（(10*9)/2）才能得到全局的排序信息。在表现力方面，pointwise label表现了一幅图像特定内容的有或者无，pairwise label表现了同一属性的关系。但如果单独使用pairwise label会引起描述的模糊。
既然pointwise labels 和pairwise labels各有千秋，本文提出了一个发现两种labels的潜在关系并融合两种labels的框架。什么是pointwise labels 和pairwise labels的潜在关系呢？从下图可以看到，“皮leather，琥珀色cognac，绑带lake up”这些标签让左边的这只鞋子有更高的分数拥有“正式”属性；而“high heel高跟”这个标签让右边这双鞋子有更低的分数拥有“comfort舒适”这个属性。反过来，如果“formal”和“comfort”拥有更高的分数，那么有更大的可能性拥有“Oxford牛津布”，较低的可能性拥有“wingtip尖头”。目前探究pointwise labels 和pairwise labels间关系的工作还没有。
PPP：Joint Pointwise and Pairwise Image Label Prediction 解读
本文用一种统一的双向图模型去追踪pointwise labels 和pairwise labels二者的潜在关系，将这两种labels进行融合，应用到图像标注中。文章的主要贡献如下：（1）对pointwise labels 和pairwise labels的关系进行建模和数学描述；（2）提出一个新型的联合框架PPP，同时预测图像的pointwise labels 和pairwise labels；（3）用提出的PPP框架进行实验。
文章接下来的内容中，第二章阐述了问题的定义和基本的模型。第三章描述了提出的框架和优化方法，第四章是实验，第五章是总结。

2 proposed method

论文中用到的符号以及一些定义说明：

X∈Rn×d ：
数据集中的图像集合，n 表示图像的数量，d表示特征的数量。
Yt∈Rn×c1和Yc∈Rn×c3：
表示pointwise label，分别表示data-tag和data-label。Y(i,j)=1表示图像 i 拥有第 j 个标签，反而则Y(i,j)=0。
pairwise label的定义：
假设有训练集D，P表示从训练集中获取的图像对集合。在提出的框架中，给出一个基于属性q图像对<a,b>，如果ya≻yb，则a有正属性分数y(a,q,1)=|ya−yb|，负属性分数y(a,q,2)=0；与此同时，b有正属性分数y(b,q,1)=0以及负属性分数y(b,q,2)=|ya−yb|。
因此，pairwise label定义为Yr∈Rm×c2，其中，m表示从训练样本中得到的图像对的数目，c2=2q，q表示属性的数目。例如，令<a,b>是第一对图像对，pairwise labelYr(1,2(q−1)+1)表示ya≻yb的程度，而Yr(1,2(q−1)+2)表示ya≺yb的程度。

2.1 Baseline models

在提出的框架中，pointwise label用于分类和标注任务。对于分类，假设有一个线性分类器Wc∈Rd×c3，作用于X得到pointwise label矩阵Yc=XWc，则：

min W c Ω (W c) + L (W c, Y c, D) (1)

其中，L()是一个损失函数，Ω是一个防止过拟合的正则化函数，D是训练样本集。这里对L使用最小二乘法。
对于标签标注，同样假设有一个线性分类器Wt∈Rd×c1，作用于X得到pointwise label矩阵Yt=XWc，则：

min W t Ω (W t) + L (W t, Y c, D) (2)

对于基于pairwise label的方法，一个简单有效的方案就是Rank SVM，该方法用一个预测函数作用于一组未知的数据，目的是以尽量小的损失学习得到一个模型W。与RankSVM类似，在我们的框架中，训练样本扩展到候选pairs集合，学习过程用的是pairwise特征向量，如下：

min W L (W, Y r, P) + Ω (W r) (3)

此处，P是训练对集合。损失函数L基于pairwise差异向量 x 定义：

L (W, Y r, P) = \sum ((a, y a, q a), (b, y b, q b)) \in P l (t (y a - y b), f (w, a - b)) (4)

其中，转换函数t(y)转换标签的差异性。在我们的框架中，转换函数定义为t(y)=sign(y)。
注意，我们虽然可以通过把上面的各个目标函数直接相加得到一个统一的模型，但是这样一个模型中各个部分本质上还是独立的（虽然我们通过权重在他们之间进行了权衡），因为各个部分之间并没有明确的关系。

2.2 探索pointwise和pairwise标签间的关系

在上文中，我们利用pointwise label和pairwise label定义了三种任务。探究pointwise label和pairwise label间的关系有利于我们找到一个同时融合类别，标注词和排序的联合框架。

注：这里，一张图的信息包含类别labels（一个大的类别），标签tags（图像的客观特征），属性attribute（图像的主观特征）

首先，属性和标签的关系描述为二分图，如下图所示。假设B∈Rc2×c1是图的邻接矩阵，B(i,j)=1表示第i个标签和第j个标签共同出现在一张图中，反而则B(i,j)=0。在本文中，我们不考虑标签和属性的共生频率，这个留到以后的一个工作中。从二分图中，我们可以确认，在同一组中的标签和属性有着相同的性能特征比如语义。对于同一个组，一个特征X(:,i)要不跟其相关，要不跟其不相关。例如，Wr(i,j)表示第i个特征预测得到第j个属性的影响，而Wt(i,k)表示第i个特征预测得到第k个属性的影响。因此，我们在Wt和Wi上加约束，这个约束从二分图的组信息中得到，可以捕捉到属性和标签间的关系。

注：这里属性和标签与pointwise label和pairwise label的关系如下：标签用pointwise label可以表达出来，而属性需要用pairwise label表达

PPP：Joint Pointwise and Pairwise Image Label Prediction 解读

我们可以应用任何社区探测算法去确认二分图中的组。本文中我们使用一个非常简单的方法从二分图中提取组——对于第j个属性，我们认为在二分图中与该属性连接起来的那些标签就是一个组。由于一个标签可能和若干个属性连接，所以可能会出现重叠。假设G是从属性-标签二分图中提取到的组的集合，最小化下面的式子以得到属性和标签间的关系：

Ω G (W t, r) = \sum i = 1 d \sum g \in G α g | | w i g | | 2 (5)

其中，Wt,r=[Wt,Wr]，αg是衡量组g和wig是连接{Wt,r(i,j)}j∈g的向量的可信度。例如，如果g={1,5,9}，wig=[Wt,r(i,1),Wt,r(i,5),Wt,r(i,9)]，接下来看看公式(5)的内在含义。对于一个特定的组g，∑di=1||wig||2相当于对g=[w1g,w2g,...,wdg]增加l1约束，||g||1。这保证了关于g的稀疏解，换句话说，g的一些元素会是0。如果gi=0或者||w2g||2=0，那么第i个特征对属性和标签的影响就同时消除了。
类似地，我们建立二分图去发现属性和类别间的潜在关系。文献[21]指出，标签和类别的共生关系夜莺考虑。因此，我们建立了一个混合的二分图来提取间类别，标签和属性的组信息。组正则化ΩG2(Wt,r,c)跟公式(5)类似，描述见图2，一个标签或者属性如果和类别联合互相联合，那他们就连在一起。注意，从图2提取的一个组，可能包含一个类别，一组属性和一组标签。

2.3 提出的框架

通过应用二分图，提出的框架相当于解决下面的优化问题：

min W L (W c, Y c, D) + L (W t, Y t, D) + L (W r, Y r, D P) + λ (| | W c | | 2 F + | | W t | | 2 F + | | W r | | 2 F) + α Ω G 2 (W t, r) + β Ω G 2 (W t, r, c) (6)

公式(6)中，前六项来自基础的预测类别，标签，排序（属性）的模型，第7项和第8项是追踪输出的重叠结构，分别由α,β控制。组正则化定义如下：

Ω G (Z) = \sum i \in G | | Z g | | 2 = \sum i = 1 d \sum g \in G | | z i g | | 2 (7)

3 PPP的优化方法

因为组结构有重叠，所以直接求解目标函数很困难，我们用ADMM方法优化这个目标函数。首先，我们介绍两个辅助变量P=[Wt,Wr]M1和Q=[Wt,Wr,Wc]M2。M1∈{0,1}(c1+c2)×c2(c1+c2)被定义为：如果第i个标签连接第j个属性则M1(i,(c1+c2)(j−1)+i)=1，否则为0。M2∈{0,1}(c1+c2+c3)×c3(c1+c2+c3)的定义和M2类似。通过这两个变量，解决W的重叠组套索问题（group lasso）就变成了分别解决P和Q的非重叠组套索问题。因此，优化函数变成：

min W, P, Q L (W c, D) + L (W t, D) + L (W r, D) + α Ω G (P) + β Ω G 2 (Q) + λ (| | W c | | 2 F + | | W t | | 2 F + | | W r | | 2 F) s . t . P = [W t, W r] M 1; Q = [W t, W r, W c] M 2; (8)

上式可以用下面的ADMM问题解决：

min W, P, Q L (W c, Y c, D) + L (W t, Y t, D) + L (W r, Y r, D) + λ (| | W c | | 2 F + | | W t | | 2 F + | | W r | | 2 F) + α Ω G (P) + β Ω G 2 (Q) + ⟨ Λ 1, P - [W t, W r] M 1 ⟩ + ⟨ Λ 2, Q - [W t, W r, W c] M 2 ⟩ + μ 2 ∥ P - [W t, W r] M 1 ∥ 2 F + μ 2 ∥ Q - [W t, W r, W c] M 2 ∥ 2 F (9)

其中，Λ是拉格朗日乗法子，μ是P=[Wt,Wr]M1和Q=[Wt,Wr,Wc]M2相等约束的惩罚。损失函数L有很多种选择，这里选的是最小二乘损失函数。
接下来是用ADMM的解法去解决这个目标函数。

接下来的优化内容，语言上理解不难，主要是数学上的理解。翻译不是很必要，不再翻译该部分的内容。步骤大概是：
3.1 更新W
3.2 更新P
3.3 更新Q
3.4 更新Λ1,Λ2,μ

最后的算法如下：
输入：XD∈RN×d和XP∈Rm×d和相关标签Yt,Yc,Yr
输出：每个实例的c1标签，c2相关分数和c3类别
1、初始化随机样本训练集D和从训练集D中随机提取的图像对集P
2、设置μ=10−3,ρ=1.1,μmax=108，并得到M1,M2
3、预计算特征分解
4、重复
5、计算W˜t,W˜c,W˜r
6、分别通过公式(16)(21)(18)更新Wt,Wc,Wr
7、计算ZP,ZQ
8、更新P,Q
9、更新Λ1,Λ2,μ
10、直到收敛
11、用XW的最大池化测试，预测标签，相关关系和类别

接下来是
3.5 收敛性分析
3.6 时间复杂度分析

4 实验

介绍了数据库和对比算法之后，分两部分进行实验，一部分针对pointwise label，一部分针对pairwise label。实验表现，应用pointwise label和pairwise label间的关系，对两种标签的预测都是有利的

PPP：Joint Pointwise and Pairwise Image Label Prediction 解读

摘要

1 introduction

2 proposed method

论文中用到的符号以及一些定义说明：

2.1 Baseline models

2.2 探索pointwise和pairwise标签间的关系

2.3 提出的框架

3 PPP的优化方法

4 实验

相关推荐