计算机视觉 - 相关性建模

相关性建模方法在计算机视觉领域里得到了广泛应用。比如，在目标检测领域，该类方法主要考虑像素间的空间领域关系；在视频建模中，考虑帧之间的相关性；在细腻度图像分类中，考虑类别标签间的结构相关性；该类方法在样本不均衡下的模型建立中同样适用，充分挖掘类别间的相关部分等等。下面主要对相关方法进行一个简单汇总与总结，给自己的后续研究提供思路。

1. 细腻度图像分类

该文名称为Fine-grained Image Classification by Exploring Bipartite-Graph Labels，发表在CVPR 2016上。概括来说，该文基于CNN架构，在最后的全连接层(Soft Max)融入二分图标签(BGL, bipartite-graph labels)，以此解决了细腻度图像分类中的两大难题：1) 由于细腻度类别标签数的有限性造成CNN模型的过拟合；2) 细腻度类别间的相似性很难学习辨别性的特征表示。所谓二分图标签(BGL)，就是作者事先定义的粗略标签，可理解为对细腻度标签根据不同性质的一系列分组；也可看着是对细腻度标签的不同属性划分。比如，论文中举了一个关于餐馆-菜品的例子，如下图：
计算机视觉 - 相关性建模
其中，中间一列为3个细腻度标签，边上的Graph1-3为预定义的粗略标签。在Graph 2中有两个类别：加蒜与否；此粗标签能将细腻度类别划分为两组。很明显，定义的一系列粗略标签与细腻度标签具有层次结构。假如现在有了一系列预定义的粗标签，那么在CNN模型的最后一层中，无非是结合细腻度标签，在Soft Max上进行扩展并学习相应的权重参数。下面来看看论文的形式化过程。

首先，我们看看只有细腻度标签在Soft Max上的形式化。假设给定训练数据集{x,y}⊆χ，x∈Rd为CNN模型中Soft Max层的输入特征表示，y∈RK为细腻度类别；W为待训练的权重参数，f=WTx∈RK为输入特征x在K个细腻度类别上产生的分数。那么我们最大化的对数似然函数为：

m a x W \sum {x, y} \subseteq χ ln p (y | x, W)

其中，y服从多元伯努力分布，且定义

p (y | x, W) = \prod k = 1 K ⎛ ⎝ e x p (f k) \sum K j = 1 e x p (f j) ⎞ ⎠ y k

上式对W的优化求解可以采用很多优化方法。现在我们考虑融入进M种类型的粗略标签{ym}Mm=1，而每一类型标签有Km种类别，且都会与K个细腻度标签建立关联。那么有了粗略标签，我们定义的优化目标函数中最大的难点在于如何定义联合概率p(y,{ym}Mm=1|x,W,{Wm}Mm=1)。为了直观的理解，我们以上图为例进行说明，可知K=3，M=3，且Km=2；而细腻度标签与粗略标签之间的关联有Gm∈{0,1}K×Km表示，其中的元素Gmk,km=1表示细腻度标签中第k类与第m类型的粗略标签中的第km类相关。比如上图中的Graph 2，G21,1=1，G21,0=0，G22,1=0，G22,0=1，G23,1=0，G23,0=1。有了关联矩阵{Gm}m，给定某一训练样本{x,y}，联合概率分布函数为：

p (y, {y m} M m = 1 | x, W, {W m} M m = 1) = p (y | x, W) \prod m = 1 M p (y m | y, x, {W m} M m = 1)

由上式可知定义的一系列粗略标签在细腻度标签给定情况下相互独立。这里为了简化并与文中一致，定义的联合概率分布函数为：

p (k, {k m} m | x, W, {W m} m) = 1 z e x p (f k) \prod m = 1 M G m k, k m e x p (f m k m)

其中fm=WTmx∈RKm，z为归一化因子：

z = \sum k = 1 K e x p (f k) \prod m = 1 M \sum k m = 1 K m G m k, k m e x p (f m k m)

注意，由于BGL的二值属性，∑Kmkm=1Gmk,kmexp(fmkm)可简写为exp(fmϕkmk)，即细腻度标签k类只与第m类型的粗略标签中的第km类相关，Gm的第k行的其它元素为0。那么，

z = \sum k = 1 K e x p (f k) \prod m = 1 M e x p (f m ϕ k m k)

有了z，那么我们就能计算细腻度标签与粗略标签的后验概率分布p(k,|x,W,{Wm}m)和p(km|x,W,{Wm}m)，便于后续的预测。现在主要就是模型参数W,{Wm}m的训练，由于

p (k, {k m} m | x, W, {W m} m) \propto e x p (f k) \prod m = 1 M e x p (f m ϕ k m k)

这里省略了归一化因子。我们能轻易构造对数似然函数，注意文中提到为了防止过拟合，在对数似然函数中加入了正则化因子，基本思想是保证细腻度标签与相关的粗略标签的权重相似，即：

p (W, {W m} m) = \prod k = 1 K \prod m = 1 M \prod k m = 1 K m e x p (- λ / 2 G m k, k m ∥ ∥ w k - w m k m ∥ ∥ 2)

最终的对数似然函数为

m a x W, {W m} m \sum {x, y} \subseteq χ ln p (y, {y m} M m = 1 | x, W, {W m} M m = 1) + ln p (W, {W m} m)

该目标函数对W,{Wm}m求偏导都有闭合解。该文最大的创新在于针对细腻度类别标签数目的有限性，预先定义了一系列具有树形层次结构的粗略标签，最后融入进CNN模型的Soft Max层。

2. 样本不平衡下的人脸识别

该文名称为Extended SRC: Undersampled Face Recognition via Intraclass Variant Dictionary，发表在PAMI2012上。传统的SRC方法建立在信号总是能在过完备字典下得到稀疏线性表达，该方法在样本均衡下的人脸识别能达到非常好的效果。但是针对样本不均衡的分类问题，该方法由于不能建立少数样本类的过完备字典而不能达到预期的识别率。而这篇论文所提方法在Sparse Representation-Based Classification (SRC) 的基础上进行扩展，充分利用人脸数据集的相关性进行建模，来解决少样本类的分类问题。
现在我们考虑一个样本不均衡的分类问题。假设在人脸数据集中，类A中有充足的训练样本，即是在不同采集条件不同姿态不同遮挡下的某一人脸。而类B中只有一个训练样本，即是在特定采集条件下特定姿态下的某一人脸。那么怎么才能构造合适的字典B来有效的表征在其它采集条件其它姿态其它遮挡下的人脸B？本文最大的创新之处就在于此，基本的思想就是各类内的人脸图像差异基本一致。比如，类A中有一张正脸，一张侧脸；而类B中只有一个训练样本为正脸，而测试样本正好为侧脸。那么，这两类的对应两张图像的差异应该不大。因此，作者进一步指出类内的差异总是能由其他类内的差异稀疏且线性表达，如下图
计算机视觉 - 相关性建模
可知测试图像能由训练图像与其他类内的差异进行组合。那么从稀疏表示的角度看，少样本类的测试图像总能由所有训练样本组成的字典A和其它类内差异组成的字典D重构出来。形式化为如下形式

y = A α + D β + n

其中A=[A1,⋯,AC]为C类训练样本组成的字典，D可以通过各类间的图像对的差异获取或者通过样本到类中心的差异获取，n为噪声。那么在测试阶段的稀疏编码问题为

a r g m i n [α *, β *] T ∥ ∥ ∥ y - [A, D] [α β] ∥ ∥ ∥ 22 + ∥ ∥ ∥ [α β] ∥ ∥ ∥ 1

得到类别c下的稀疏编码后αc和统一的差异字典下的稀疏编码β，即可计算测试样本y在该类c下的重构误差；最后通过各个类别的重构误差得到其类别。
本文方法思想简单，但很具创新性。即使是在一个训练样本下的识别率也能达到很好的效果。但是该方法的一个前提是构造的统一的差异字典必须过完备。

计算机视觉 - 相关性建模

1. 细腻度图像分类

2. 样本不平衡下的人脸识别

相关推荐