论文阅读笔记《Few-Shot Image Recognition with Knowledge Transfer》
小样本学习&元学习经典论文整理||持续更新
核心思想
本文提出一种基于语义信息的小样本学习算法(KTN)。作者称其为知识迁移(Knowledge Transfer),但其实就是利用目标的标签包含的语义信息作为一种先验知识,来辅助目标分类。整个模型分成视觉特征学习模块(Visual Feature Learning Module),知识迁移模块(Knowledge Transfer Module)和视觉-知识融合模块(Vision-Knowledge Fusion Module),整个网络的结构如下图所示
视觉特征学习模块其实没有什么好介绍的,就是一个CNN特征提取加一个余弦分类器,首先利用特征提取网络,对输入图像进行特征提取得到特征向量,然后经过一个L2规范化处理后,计算与分类器权重之间的内积作为相似性得分,最后利用softmax函数转化成分类概率,计算过程如下
式中表示一个放缩参数。对于基础数据集,分类器权重可以通过训练获得,对于小样本数据集,分类器权重是支持集样本对应特征向量经L2规范化后的平均值。
知识迁移模块采用了图卷积神经网络,每一个节点表示一个类别标签对应的词向量,节点之间的边表示两个类别之间的相关性。本文采用WordNet将所有样本类别标签转化成对应的词向量,将各个类别之间的相关性转化成一个对称邻接矩阵。经过图卷积神经网络后,输出基于知识的分类器权重。
最后为了融合图像特征信息和知识迁移的语义特征信息,作者又设计了视觉-知识融合模块,其计算过程如下
其中表示级联拼接,表示平衡系数,表示融合后的分类器权重。
实现过程
网络结构
特征提取网络采用4-Conv或ResNet结构。
损失函数
对于图像特征学习部分,损失函数是为了增强特征向量与分类权重之间的相似性,其损失函数为
表示相似性得分,第二项是分类损失。而对于知识迁移部分,损失函数是为了增强基于图像的分类器权重和基于知识的分类器权重之间的相似性,因此其损失函数为
其中
创新点
- 利用图卷积神经网络构建了一个语义知识与视觉特征之间的映射网络
- 将图像特征和语义特征通过分类器权重融合的方式结合起来,把语义特征作为一种先验知识补充到小样本分类器中
算法评价
又是一篇利用语义信息进行小样本学习的文章,想法没有问题,把语义作为一种额外的先验知识,补充到分类过程中去,这也符合人类的学习过程。采用图卷积神经网络来做信息提取,利用权重拼接或相加的方式来做融合算是本文的创新。但问题依旧是怎样充分的挖掘和利用语义信息,并将其和对应的视觉特征匹配起来,形成有效的信息补充。
如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。