Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification

Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification

abstract:

本文作者提出了一种弱监督的方法,它只需要图像级的标签来进行细粒度的分类。

1.introduction

有的两个物种的差别特别小,只有特别专业的人才能鉴别出来,关键是找到两个的鉴别区。如果在部件级上标签去识别他们,花费巨大,在现实生活中并不适用。因此现在很多人开始做弱监督。现在主要是由两种办法,第一类方法主要是寻找对CNN特征编码的最佳方法,使其具有识别的鉴别性。另一种寻找图像和视觉注意机制中最具识别性的部分的方法是常用的工具。

在这篇论文中有三个CNN,网络进行定位之后传给下个网络,然后裁剪,放大,传到下一个网络里。同时,考虑到物体与各部分之间的空间关系,提出了一种空间约束损失,以提高参与部分区域的多样性。

2.related work  

细粒度综述。

3.PROPOSED METHOD(提出的方法)

模型由三个部分组成。思路:使用第一个CNN从具有对象级注意力的原始图像中找到目标位置。然后利用第二个CNN学习对象级特征,定位有区别的部分。然后将零件级图像发送到最后一个CNN进行特征学习。为了保持参与部分区域的多样性,我们利用se模块进行信道明智的注意和空间部分约束损失。

Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification

现实中的图有背景,对象往往被背景搞的很不清,或者是对象很小。同时,在卷积网络中,一些对象的大小相对较小,经过一系列的最大池操作,可能会丢失大量的零件信息,这可能会对识别结果的性能造成危害。作者发现:在特定细粒度数据集上进行微调的卷积网络可以处理一个对象区域。还可以通过阈值裁剪感兴趣的区域,然后通过双线性插值将其发送到下一个CNN,这样就可以学习更微妙的特征。

过程是这样的:作者先输入一个图像X,然后进行第一层卷积,最后提取出feature map,记为:Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification。前向传播的过程定义为:Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image ClassificationWeakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification表示卷积层中的所有参数。然后把所有通道的feature map都加起来Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification在第二个卷积的feature map相加之前,需要进行一个SE,SE结构如下:

Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image ClassificationWeakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification

把relu换成了leaky relu的动机是因为:relu的输入值是0-无穷,因此sigmoid函数的取值为:[0.5,1],这就意味着最不重要的依然能得到0.5的权重,这就无法估计重不重要,所以换了个。

SE的过程可以表示为:

Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification

然后得到了Weakly Supervised Learning of Object-Part Attention Model for Fine-Grained Image Classification。。。。然后一系列的计算,然后定义了loss function,有点看不下去。。

最后就是实验数据,有的可以和其他的差不多,有的比其他算法好。