用于零样本学习的语义关系保持
Preserving Semantic Relations for Zero-Shot Learning

[CVPR 2018 论文笔记] Preserving Semantic Relations for Zero-Shot Learning

本文亮点：将语义性引入到嵌入空间对零样本学习是有益处的。

文章目录

论文下载地址
摘要
1. 引言
2. 相关工作
3. 提出的方法

3.1 定义语义关系
3.2 保持语义关系
3.3 挖掘元组

4. 实验

4.1 数据集和实验设置
4.5 approximate semantic inference

参考文献

论文下载地址

[pdf]
[arXiv]

摘要

零样本学习现在非常流行，因为它在不需要额外训练数据的情况下扩展识别模型的潜力。零样本学习一般是通过关联类别及其语义信息（比如属性）来实现的。然而，我们相信这种模式提供的潜力还没有被充分利用。在本文中，我们提出通过一组关系来利用属性空间结构。我们设计了一些目标函数来保持嵌入空间的语义关系，这样就把语义性引入到了嵌入空间。通过在5个基准数据集上的大量实验评价，我们证明了将语义性引入到嵌入空间对零样本学习是有益处的。在标准的零样本设置和更实际的广义的零样本设置下，我们提出的方法都超过了最好的算法。我们也证明了提出的方法对于在没有类别的属性信息的情况下对图片进行近似语义推理是有用的。

嵌入空间是什么？
答：实现分类的空间，具体指——视觉空间，语义空间，或者预定义的空间，隐空间等等
怎么将语义性引入到嵌入空间？
答：语义性指的是语义空间的结构，通过语义关系来保持这种结构。本文定义的语义关系是类别间的语义关系，有的定义的是属性之间的语义关系。

1. 引言

一些方法把零样本看做一个排名问题。但是，由于固定的间隔和相容性函数的无界性质，排名会导致一些来自属性的可用语义结构的丢失。

一些方法使用嵌入来解决零样本。这里，选择嵌入空间是非常重要的。

如果将由属性组成的空间（语义空间）作为嵌入空间，语义结构得到了保持，但是枢纽点的问题出现了。为了缓解这一问题，一些方法将语义嵌入映射到由图像特征组成的空间（视觉空间）。
然而视觉空间可能不包含语义特性，因为视觉空间可能是继承自一个监督分类任务训练得到的模型，其中标签是one-hot向量。【所以应该用属性作为监督信息的分类网络】

我们认为两件事情对零样本识别很重要：

对训练类别的判别力
继承语义空间的性质，实现对新类的有效分类
我们提出了一个简单且有效的方法，基于一个编码解码的多层感知机结构下，既保证了判别力，又保持了语义空间的结构。

2. 相关工作

三类：

双线性兼容性框架
岭回归
流行学习

3. 提出的方法

[CVPR 2018 论文笔记] Preserving Semantic Relations for Zero-Shot Learning
ZSL形式化表达：
已知样本及其类嵌入，已知类别，
$X={\{x_i^T\}}_{i=1}^N \in R^{N \times d}$ ,
$Y={\{y_i^T\}}_{i=1}^N \in R^{N \times a}$ ,
$C_s = {\{1, 2, \dots, c_s\}}$
给定一个新的样本 $x^u$ ，可能属于的未见类别 $C_u = {\{c_s+1, c_s+2, \dots, c_s+c_u\}}$ .

零样本的目标是在不用未见类样本训练模型的情况下，预测 $x^u$ 的正确类别。

3.1 定义语义关系

给定一组类别，对于一个参考类，将其分成三组：相同、语义相似、语义不相似。

语义关系的相似性度量为 $\delta_{mn}=s(y_m, y_n)$ ，本文采用余弦相似性。

$s(p, q) = \frac {<p, q>}{||p||_2||q||_2} \tag{1}$

三种关系

属于同一个类（identical）： $\delta_{mn} = 1$
语义相似： $\tau \leq \delta_{mn} <1$
语义不相似： $\delta_{mn} < \tau$
其中， $\tau \in (-1, 1)$ ，不失一般性， $\tau$ 可以固定为0，这对于余弦相似度是一个合理的估计。文章是通过验证集来选取 $\tau$ 的。

3.2 保持语义关系

基于上面的定义，我们希望将类别嵌入映射到视觉空间，这样映射后的类别嵌入和视觉特征之间的语义关系就能够反映他们对应类别之间的关系。本文将类别嵌入映射到视觉空间受[34]和[44]激发，文章表明使用视觉空间或者其他中间空间而不是语义空间作为嵌入空间可以缓解枢纽点问题。因此，我们使用视觉空间作为嵌入空间。

编码解码多层感知机：

编码器 $f(y; \theta_f)$
解码器 $f(x; \theta_g)$
我们的模型构建受[16]的启发。传统上，MSE loss备用过来减小相同嵌入之间的差异。然而，这可能不能保持语义结构。在本文中，我们明确构造了目标函数来保持嵌入空间的语义结构。

几个符号：
视觉特征三元组： $(x_i, y_j, z_k)$
类别嵌入三元组： $y_i, y_j, y_k$
参考类是 $y_r$
则有语义关系： $\delta_{ir}=1, \tau \leq \delta_{jr}<1, \delta_{kr} < \tau$
3.3给出了快速采样三元组的方法。

相同和不相似类别的目标函数
$\mathcal O_1 = \min\limits_{\theta_f} -s(f(y_r; \theta_f), x_i) + (\tau - \delta_{kr}) \cdot s(f(y_r; \theta_f), x_k) \tag{2}$
第一项满足相同类的需求，旨在最大化 $f(y_r; \theta_f)$ 和 $x_i$ 的语义相似性。理想情况下，应该等于1。
第二项旨在最小化 $f(y_r; \theta_f)$ 和 $x_k$ 的语义相似性。 $\tau - \delta_{kr}$ 是适应性缩放项。

相似类别的目标函数

$s(f(y_r; \theta_f), x_j) > \tau$ 来保持关系
$s(f(y_r; \theta_f), x_j) < \delta_{jr}$ 不妨碍识别任务

$\mathcal O_2 = \min\limits_{\theta_f} [\tau - s(f(y_r; \theta_f), x_j)]_+ + [ s(f(y_r; \theta_f), x_j) - \delta_{jr}]_+ \tag{3}$

其中， $[z]_+ = max{\{0, z\}}$ 。注意：只有一项会被触发。上面的约束只针对相似类别。不相似类别因为在大多数应用中数量足够少可以被忽略。

重建Loss
受启发于[16]，添加一个额外的重建项对零样本识别是有益的。

$\mathcal O_3 = \min\limits_{\theta_f, \theta_g}||y_r - \hat y_r||_2^2 \tag{4}$

总体目标函数

$\mathcal O = \frac{1}{|\mathcal B|} \sum\limits_{\mathcal B} \mathcal O_1 + \lambda_1 \mathcal O_2 + \lambda_3 \mathcal O_3 \tag{5}$

给定一个测试样本 $x_u$ ，我们推断它的类别如下：

$c^* = \arg \max\limits_c s(f(y_r^c; \theta_f), x^u) \tag{6}$

其中， $y_r^c$ 在传统ZSL指未见类，在广义ZSL下指已见类和未见类。

3.3 挖掘元组

Our method is similar to the hard negative mining approach for triplet based learning algorithms [6, 33, 35].

选择 $x_i$ ：在三元组 $(x_i, x_j, x_k)$ 中， $x_i$ 可以随机选择只要它属于同一个类 $y_r$ ，从数据集中顺序选取就可以。
选择 $x_j$ ：对于每个 $y_r$ ，我们随机采样 $p(p=50)$ 个 $x_j$ ，满足条件 $\tau \leq \delta_{ij} < 1$ . 在这些样本中，我们选择使得 $\mathcal O_2$ 最大的那个样本。
选择 $x_k$ ：同样地，我们随机采样 $p$ 个 $x_k$ ，满足条件 $\delta_{ij} < \tau$ 。在这些样本中，我们选择使得 $\mathcal O_1$ 的第二项最大的那个样本。

4. 实验

4.1 数据集和实验设置

[CVPR 2018 论文笔记] Preserving Semantic Relations for Zero-Shot Learning

4.5 approximate semantic inference

近似语义推理，类似检索任务
[CVPR 2018 论文笔记] Preserving Semantic Relations for Zero-Shot Learning
绿色表示语义相似，红色表示语义不相似。

参考文献

[6] M. Bucher, S. Herbin, and F. Jurie. Hard negative mining for metric learning based zero-shot classification. In ECCV Workshops, 2016.

[33] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.

[35] E. Simo-Serra, E. Trulls, L. Ferraz, I. Kokkinos, P. Fua, and F. Moreno-Noguer. Discriminative learning of deep convolutional feature point descriptors. In ICCV, 2015.

[16] E. Kodirov, T. Xiang, and S. Gong. Semantic autoencoder for zero-shot learning. In CVPR, 2017.

[34] Y. Shigeto, I. Suzuki, K. Hara, M. Shimbo, and Y. Matsumoto. Ridge regression, hubness, and zero-shot learning. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2015.

[40] Y. Xian, C. H. Lampert, B. Schiele, and Z. Akata. Zero-shot learning-a comprehensive evaluation of the good, the bad and the ugly. arXiv preprint arXiv:1707.00600, 2017.

[44] L. Zhang, T. Xiang, and S. Gong. Learning a deep embedding model for zero-shot learning. CVPR, 2017.