论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》

核心思想

  本文提出一种基于权重生成的小样本学习算法(AWGIM),这种类型的方法之前在小样本目标检测算法中见到过,就是直接用一个生成器生成分类器的权重参数。本文与其他相关算法(LEO)的区别在于在生成分类器权重时,不仅考虑支持集图像,而且考虑查询集图像。为了实现这一目的,本文引入了互信息(Mutual Information,MI)和注意力机制。整个网络的流程如下图所示
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
  首先,介绍一下什么是互信息MI——给定两个随机变量xxyy,互信息I(x;y)I(x;y)表示当其中一个变量已知时,另一个变量不确定性的下降程度。如果两个变量是完全独立的,则互信息为0。互信息通常利用两个随机变量分布的KL散度表示
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
p(x,y)p(x,y)表示两个变量的联合分布,p(x)p(y)p(x)\otimes p(y)表示两个边缘分布的乘积。为了使生成的分类器权重与查询集图像和支持集图像相关,本文将目标函数定义为最大化权重wiw_i与查询集图像x^\hat{x}和支持集图像xcix_{c_i}之间的互信息
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
根据互信息定义可得
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
则目标函数可写为
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
但是由于后验分布p(y^x^,wi)p(\hat{y}|\hat{x},w_i)p(x^wi)p(\hat{x}|w_i)是未知的,因此需要通过近似方法来计算,目标函数的近似表达为
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
其中第一项和第三项表示在给定分类器权重的条件下,最大化查询集图像和支持集图像的标签预测概率的对数似然,这等价于最小化预测结果于真实值之间的交叉熵损失函数。
  查询集图像和支持集图像经过特征提取网络后得到对应的特征向量x^\hat{x}xx,然后分别通过两个通道进行任务上下文编码和查询集样本编码,本文通过多头注意力机制(multi-head attention)实现编码过程,计算过程如下
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
式中Q,K,VQ,K,V分别表示查询queryquery,键keykey和值valuevalueWQj,WKj,WVjW_Q^j,W_K^j,W_V^j分别表示第jj个头(head)对应的权重矩阵。对于本文而言编码过程包含两个路径:上下文路径和注意力路径。上下文路径目的是用多头自注意力网络(multi-head self-attention network)fθcpsaf_{\theta_{cp}^{sa}}学习支持集图像的表征
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
在注意力路径中,首先用一个新的多头自注意力网络对支持集图像进行编码
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
然后再利用一个交互注意力网络(cross attention network)fθcaapf_{\theta_{ca}^{ap}}对查询集图像和支持集图像共同编码
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
最后将两个分支的输出xcpx^{cp}x^ap\hat{x}^{ap}级联后得到xcpapx^{cp \oplus ap},利用生成器gg输出分类器权重ww。本文假设分类器权重ww满足带有对角化协方差矩阵的高斯分布,因此生成器输出的是权重ww分布的均值μwi\mu_{w_i}和协方差矩阵wi\sum_{w_i}(对角化矩阵,对角线上的元素为σwi\sigma_{w_i}),计算过程如下
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》
为了简化计算对于同一类别的KK个样本,采用取平均值的方式计算最终的分类器权重wfinalw^{final},得到分类器权重后就可以得到查询集和支持集图像对应的预测结果了,也就得到了目标函数中的第一项和第三项,但第二项和第四项尚且未知,因此除了生成器gg之外还有两个解码器r1r_1r2r_2,分别用于预测pθ(x^wi)p_{\theta}(\hat{x}|w_i)pθ(xciwi)p_{\theta}(x_{c_i}|w_i)

实现过程

网络结构

  特征提取器采用4层卷积层网络或ResNet网络,生成器gg和解码器r1r_1r2r_2采用两层多层感知机。

损失函数

  目标函数等价于下述损失函数
论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》

创新点

  • 采用权重生成的方式实现小样本分类
  • 通过互信息MI和注意力机制将查询集图像和支持集图像结合起来,共同生成对应类别的权重

算法评价

  本文也可以认为是基于参数优化的元学习方法,只不过是学习生成分类器权重参数。整篇文章公式很多,但推导比较详细,整个过程还是非常清晰易懂的。本文中引入的互信息和自注意力机制还有交互注意力机制都是先前文章中没有采用的方案,值得进一步学习和研究。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》