论文阅读笔记 | (TIP 2018) Object-Part Attention Model for Fine-grained Image Classification
(接上一篇博文)
论文来自北京大学计算机科学技术研究所多媒体信息处理研究室(Multimedia Information Processing Lab, 简称MIPL),做细粒度图像分类。
论文下载:Object-Part Attention Model for Fine-grained Image Classification
知乎专栏计算机视觉一隅,文章TIP 2018 Object-Part Attention Model for FGVC
OPAM APPROACH
A. Object-level Attention Model
大多数现有的弱监督工作[7],[14],[20]致力于判别部分选择(discriminative part selection),但忽略了对象定位(object localization),这可以消除图像中背景噪声的影响,以学习有意义和有代表性的对象特征。虽然有些方法同时考虑对象定位和部分选择,但它们依赖于对象和部分注释(object and part annotations)[6],[19]。
为了解决这个重要问题,文章提出了一种基于显著性提取(saliency extraction)的对象级注意模型,用于仅使用图像级子类别标签自动定位图像对象,而无需任何对象或部分注释。该模型由两部分组成:patch filtering 和 saliency extraction。第一个组件是过滤掉噪声图像块并保留与对象相关的图像块,用于训练CNN,称为ClassNet,以学习特定子类别的多视图和多尺度特征。第二个组件是通过CNN中的全局平均池化来提取显著性映射,以便定位图像对象。
1) Patch Filtering: 大量的训练数据对于CNN的表现具有重要意义,因此我们首先关注如何扩展训练数据。 自下而上的过程可以通过将像素分组到可能包含对象的区域中来生成数千个候选图像块。 由于它们与对象的相关性,这些图像块可以用作训练数据的扩展。 因此,采用选择性搜索(selective search)[9]来生成给定图像的候选图像块,这是一种无监督且广泛使用的自底向上处理方法。 这些候选图像块提供原始图像的多个视图和尺度,这有利于训练有效的CNN以实现更好的细粒度图像分类准确性。 然而,由于高召回率但精度低,这些图像块不能直接使用,这意味着存在一些噪声。 对象级注意模型非常有助于选择与对象相关的图像块。
移除噪声图像块,通过CNN选择相关图像块,称为FilterNet,这是在ImageNet 1K数据集上预先训练的,然后对训练数据进行微调。我们将属于输入图像子类别的softmax层中神经元的**函数定义为selection confidence score,然后设置阈值以决定是否应该选择给定的候选图像块。然后我们获得具有多个视图和尺度的与对象相关的图像块。扩展训练数据提高了ClassNet的训练效果,这对OPAM方法有两个好处:(1)ClassNet本身就是一种有效的细粒度图像分类器。 (2)其内部特征对于构建用于将具有相同语义的部分对齐在一起的部分集群非常有帮助,这将在后面的子部分B中进行描述。应注意,patch filtering仅在训练阶段执行且仅使用图像级子类别标签。
2)Saliency Extraction: 在该阶段,采用CAM [28]来获得子类别c的图像的显著性图Mc以定位对象。 显著图表示CNN用于识别图像的子类别的代表区域(representative regions),如图4的第二行所示。然后,如图4的第三行所示,通过在显著性图上执行二值化和连通性区域提取(binarization and connectivity area extraction)来获得图像的对象区域。
B. Part-level Attention Model
由于诸如头部和身体之类的辨别部分对于细粒度图像分类是至关重要的,因此先前的工作[6]通过自下而上过程,如选择性搜索,产生的候选图像块中选择判别部分。 然而,这些工作依赖于非常耗费人力的部分注释。 虽然有些工作开始专注于在不使用任何部分注释的情况下找到判别部分[7],[15],但它们忽略了对象及其部分之间以及这些部分之间的空间关系。 因此,文章提出了一种新的部分选择方法,由部分级注意力驱动,利用细微和局部判别来区分子类别,既不使用对象注释也不使用部分注释。 它由两部分组成:bject-part spatial constraint model 和 part alignment。 第一部分是选择判别部分,第二部分是通过语义将所选部分对齐成簇。