论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》

核心思想

本文提出一种基于权重生成的小样本学习算法（AWGIM），这种类型的方法之前在小样本目标检测算法中见到过，就是直接用一个生成器生成分类器的权重参数。本文与其他相关算法（LEO）的区别在于在生成分类器权重时，不仅考虑支持集图像，而且考虑查询集图像。为了实现这一目的，本文引入了互信息（Mutual Information，MI）和注意力机制。整个网络的流程如下图所示
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
首先，介绍一下什么是互信息MI——给定两个随机变量 $x$ 和 $y$ ，互信息 $I(x;y)$ 表示当其中一个变量已知时，另一个变量不确定性的下降程度。如果两个变量是完全独立的，则互信息为0。互信息通常利用两个随机变量分布的KL散度表示
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
$p(x,y)$ 表示两个变量的联合分布， $p(x)\otimes p(y)$ 表示两个边缘分布的乘积。为了使生成的分类器权重与查询集图像和支持集图像相关，本文将目标函数定义为最大化权重 $w_i$ 与查询集图像 $\hat{x}$ 和支持集图像 $x_{c_i}$ 之间的互信息
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
根据互信息定义可得

则目标函数可写为

但是由于后验分布 $p(\hat{y}|\hat{x},w_i)$ 和 $p(\hat{x}|w_i)$ 是未知的，因此需要通过近似方法来计算，目标函数的近似表达为
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
其中第一项和第三项表示在给定分类器权重的条件下，最大化查询集图像和支持集图像的标签预测概率的对数似然，这等价于最小化预测结果于真实值之间的交叉熵损失函数。
查询集图像和支持集图像经过特征提取网络后得到对应的特征向量 $\hat{x}$ 和 $x$ ，然后分别通过两个通道进行任务上下文编码和查询集样本编码，本文通过多头注意力机制（multi-head attention）实现编码过程，计算过程如下
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
式中 $Q,K,V$ 分别表示查询 $query$ ，键 $key$ 和值 $value$ ； $W_Q^j,W_K^j,W_V^j$ 分别表示第 $j$ 个头(head)对应的权重矩阵。对于本文而言编码过程包含两个路径：上下文路径和注意力路径。上下文路径目的是用多头自注意力网络（multi-head self-attention network） $f_{\theta_{cp}^{sa}}$ 学习支持集图像的表征
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
在注意力路径中，首先用一个新的多头自注意力网络对支持集图像进行编码

然后再利用一个交互注意力网络（cross attention network） $f_{\theta_{ca}^{ap}}$ 对查询集图像和支持集图像共同编码
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
最后将两个分支的输出 $x^{cp}$ 和 $\hat{x}^{ap}$ 级联后得到 $x^{cp \oplus ap}$ ，利用生成器 $g$ 输出分类器权重 $w$ 。本文假设分类器权重 $w$ 满足带有对角化协方差矩阵的高斯分布，因此生成器输出的是权重 $w$ 分布的均值 $\mu_{w_i}$ 和协方差矩阵 $\sum_{w_i}$ （对角化矩阵，对角线上的元素为 $\sigma_{w_i}$ ），计算过程如下
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
为了简化计算对于同一类别的 $K$ 个样本，采用取平均值的方式计算最终的分类器权重 $w^{final}$ ，得到分类器权重后就可以得到查询集和支持集图像对应的预测结果了，也就得到了目标函数中的第一项和第三项，但第二项和第四项尚且未知，因此除了生成器 $g$ 之外还有两个解码器 $r_1$ 和 $r_2$ ，分别用于预测 $p_{\theta}(\hat{x}|w_i)$ 和 $p_{\theta}(x_{c_i}|w_i)$