带视觉结构约束的直推式零样本学习

NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint
如图所示，10种未见类图片在视觉空间中的表示，以及几种中心的表示。
符号说明：
VCL Center 投影中心，用□表示
Real Center 真实中心，用☆表示
BMVSc Center 约束中心，用○表示
K-Means Center 聚类中心，用◇表示

WDVC

Motivation
Method

VCL 视觉中心学习
CDVSc 基于倒角距离的视觉结构约束
BMVSc 基于双分区匹配的视觉结构约束
WDVSc 基于Wasserstein距离的视觉结构约束
存在无关测试图片的真实场景

Experiment

SS设定下定量对比实验
PS设定下定量对比实验 && GZSL定量对比实验
测试集有无关图像的场景

Motivation

观察发现，未见类样本在视觉空间中可分性很好，能被划分成不同的簇。如果学到的投影函数足够好，那么将每个类的语义属性在视觉空间的投影中心会和真实中心对齐。但是由于domain shift的问题，未见类的投影中心会偏离真实中心，导致分类效果不好。观察可以发现未见类的聚类中心和真实中心离得很近。在学习投影函数时，对齐未见类的投影中心和聚类中心可以缓解domain shift的问题。

Method

$\phi(\cdot)$ 是CNN特征提取器，x是图像， $\phi(x) \in \mathcal R^{d \times 1}$ 。 $c_j^s$ 表示第i个已见类在视觉空间的真实中心，用所有特征向量的均值表示。
投影函数有两层全连接表示，如下：
$c_i^{syn,s} = \sigma_2(w_2^T\sigma_1(w_1^Ta_i^s)) \tag{1}$
其中， $c_i^{syn,s}$ 表示第i个已见类在视觉空间的投影中心， $a_i^s$ 表示第i个已见类的属性表示。 $\sigma$ 表示非线性操作Leak ReLU, $w$ 是全连接层的参数。

VCL 视觉中心学习

loss如下：
NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint
测试阶段，用投影函数得到未见类的投影中心 $c_i^{syn,u}$ ，将测试图片在视觉空间距离最近的未见类作为分类结果

CDVSc 基于倒角距离的视觉结构约束

我们要对齐未见类的投影中心和真实中心。但是在直推式ZSL中，只有未见类的未标注样本。实验发现，聚类中心和真实中心离的很近。所以，我们用聚类中心来代替真实中心。
那么，对齐聚类中心结构和投影中心结构的问题可以表示成减小两个无序高维点集距离的问题。受启发于3D点云的工作，提出了对称倒角距离约束来解决结构匹配问题：
NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint

BMVSc 基于双分区匹配的视觉结构约束

CDVSc的问题在于，有时候会存在多对一的匹配现象。这会导致投影中心会被拉到错误的真实中心。为了解决这个问题，提出了基于双分区匹配的约束来找到两个集合之间全局最小距离，同时满足一对一匹配原则。我们可以将这个问题形式化为一个最小权重匹配问题：
NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint
其中，X是分配矩阵，x_ij表示集合A中的元素i和集合B中的元素j的匹配关系，D是距离矩阵，d_ij表示集合A中的元素i和集合B中的元素j的距离。论文用匈牙利算法来解决这个问题，时间复杂度是O(V²E)。总loss如下：
NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint

WDVSc 基于Wasserstein距离的视觉结构约束

双分区匹配可以达到全局最优匹配的假设前提是投影中心和真实中心是紧凑且准确的。但是，这个假设并不总是成立。通过使用Wasserstein距离，用可变值的矩阵X而不是用固定值（0或1）的分配矩阵来表示两个点集的联合概率分布。这个目标形式化和公式6很像，但是X表示的软联合概率值而不是固定值（0或1）。这篇论文中，采用了基于Sinkhorn迭代的熵正则化最优传输问题：
NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint
其中，H(X)是矩阵的熵 $H(X) = -\sum_{ij}x_{ij}\log x_{ij}$ ， $\epsilon$ 是正则化参数。
X可以写成 $X=diag\{u\}Kdiag\{v\}$ 迭代优化u和v:

其中，K是矩阵D算出来的核矩阵。最终loss如下：
NIPS 2019 Transductive Zero-Shot Learning with Visual Structure Constraint