论文阅读-Prototype Rectification for Few-Shot Learning

ECCV 2020 Oral

源码暂未开放

motivation

传统的原型网络是将support集里面每个类的所有样本的特征的平均作为该类的原型representation，通过query集合的特征representation与support集中每个类别的原型representation进行欧式距离计算，在经过softmax得出最后所属类别。

作者认为简单的求平均会产生很大的bias，因此提出了对原型网络进行修正。从两个角度：intra-class bias和cross-class bias

论文阅读-Prototype Rectification for Few-Shot Learning

基于余弦分类器使用base类训练一个特征提取器 $F_\theta(·)$ 以及余弦分类器 $C(·|W)$

$C\left(F_{\theta}(x) \mid W\right)=\operatorname{Softmax}\left(\tau \cdot \operatorname{Cos}\left(F_{\theta}(x), W\right)\right)$
$W$ 是可学习的权重， $\tau$ 是一个标量参数
损失函数： $L(\theta, W \mid \mathcal{D})=\mathbb{E}\left[-\log C\left(F_{\theta}(x) \mid W\right)\right]$
inference 阶段，在小样本上重新训练 $F_\theta(·)$ 以及分类权重。为避免过拟合， $P_n$ 的计算方式为 $P_{n}=\frac{1}{K} \sum_{i=1}^{K} \bar{X}_{i, n}$ ，其中 $\bar{X}$ 是归一化之后的support 样本

intra-class bias表达式： $B_{\text {intra}}=\mathbb{E}_{X^{\prime} \sim p_{X^{\prime}}}\left[X^{\prime}\right]-\mathbb{E}_{X \sim p_{X}}[X]$ ，其中 $px'$ 是一类所有样本的分布，而 $px$ 是一类可用的标记样本的分布。
预期的原型应该由一类中所有样本的均值特征表示。实际上，只有一部分样本可用于训练，也就是说，几乎不可能获得预期的原型。小样本中每个类别只有K个样本，数量上比实际中所有样本数量少了很多，所以仅用K个样本计算出的原型是有偏差的。
采用伪标签策略来增强support集（使用query样本对support样本做了数据增强）
- 使用CSPN给出预测得分，选择每个类的前top $Z$ 个query样本作为support集合的扩展
- 当前support集合可表示为： $\mathcal{S}^{\prime}=\mathcal{S} \cup \mathcal{Q}_{\text {pseudo}}^{Z}$
- 但是伪标签不一定预测正确，因此简单平均可能会引起新的误差，因此采用了weighted sum的机制
  
  $P_{n}^{\prime}=\sum_{i=1}^{Z+K} w_{i, n} \cdot \bar{X}_{i, n}^{\prime}$ ， $w_{i, n}=\frac{\exp \left(\varepsilon \cdot \operatorname{Cos}\left(X_{i, n}^{\prime}, P_{n}\right)\right)}{\sum_{j=1}^{K+Z} \exp \left(\varepsilon \cdot \operatorname{Cos}\left(X_{j, n}^{\prime}, P_{n}\right)\right)}$
  
  $\varepsilon$ 是一个标量参数， $P_n$ 是基础原型

指support集中的平均样本特征与query集中的平均样本特征间存在差异
它源自领域适应问题，其中平均值用作一阶统计信息的类型来表示数据集，cross-class bias表达式为 $B_{\text {cross}}=\mathbb{E}_{X_{s} \sim p_{\mathcal{S}}}\left[X_{s}\right]-\mathbb{E}_{X_{q} \sim p_{\mathcal{Q}}}\left[X_{q}\right]$
对每个归一化的query 数据 $\bar{X}_q$ 加上一个shifting item $\xi$

$\xi=\frac{1}{|\mathcal{S}|} \sum_{i=1}^{|\mathcal{S}|} \bar{X}_{i, s}-\frac{1}{|\mathcal{Q}|} \sum_{j=1}^{|\mathcal{Q}|} \bar{X}_{j, q}$

论文阅读-Prototype Rectification for Few-Shot Learning

伪标签个数取8：

论文阅读-Prototype Rectification for Few-Shot Learning

T-SNE可视化:

论文阅读-Prototype Rectification for Few-Shot Learning

https://zhuanlan.zhihu.com/p/109075199