Deep Self-Taught Learning for Weakly Supervised Object Localization

Abstract

弱监督定位:训练图像只有针对图像的注释,没有包含物体的矩形框。弱监督定位越来越重要,因为它不需要昂贵的边界框注释。

大多数现有的弱监督定位(WSL)方法都是通过在图像级监督学习的特征的基础上寻找正的边界盒来学习检测器的。但是,这种特征不包含与空间位置相关的信息,并且通常提供低质量的正样本来训练检测器。

为了克服这一难题,文章提出了一种深度自学习的方法,使检测器学习对象级 特征,从而获得可靠地紧正样本,并在此基础上进行再训练。因此,检测器逐步提高其检测能力,并定位更多的正样本。为了实现这种自学习,我们提出了一种种子样本获取方法,通过图像到对象的传输和稠密子图发现方法来寻找可靠的正样本来初始化检测器。

此外还提出了一种在线支撑样本采集方案,动态选择最可信的紧正样本,并以相互促进的方式训练检测器。为了防止检测器由于过拟合而陷入较差的最优状态,我们提出了一种新的预测CNN分数的相对改进方法来指导自主学习过程。

在PASCAL2007和2012数据集的大量实验表明,我们的方法比现有的方法表现更好,有力的验证了他的有效性。

introduction

文章中的大致流程是先进性种子样本的获取,接着通过在线支撑样本动态选择最可靠的正样本(通过检查来自检测器的检测分数),由于CNN学习能力较强容易对错误样本过拟合学习,对此提出relative improvement方法解决过拟合问题。

种子正样本的获取

候选区域的提取
使用HCP方法,将图像中属于同一类别的物体的候选区域提取出来。
HCP:A Flexible Framework for Multi-Label Image Classification
不需要真值训练数据的情况下可以完成对多标签图像的分类问题。Deep Self-Taught Learning for Weakly Supervised Object Localization
首先提取图像中的候选区域,然后对每个候选区域进行分类,最后使用cross-hypothesis max-pooling将图像中的区域分类结果进行融合,得到整个图像的多类别标签。

HCP的框架示意图:
Deep Self-Taught Learning for Weakly Supervised Object Localization
种子样本的生成
对于若干候选区域,我们需要从中选择出一个最好的候选区域。这里我们使用了图论知识,将其表示为DSD(稠密子图发现为题)。

DSD :将所有候选区域作为节点,如果它们之间IOU大于某一阈值就用一个边将它们连起来,组成无向图G,从某一节点开始采用贪心算法,找到当前边最多的节点保存,删除与它连接的所有相邻节点。重复上面步骤,直到没有其他节点或保存的节点数大于k。

这种方法的好处:与clustering和non-maximal suppression相比,这种方法保留的候选区域数目是自适应的,与估计的分类分数无关。

在线支撑样本采集
这一步是通过Fast R-CNN进一步得到更高质量的候选样本。通过观察不同候选区域relative improvement(RI)来自动找出最好的候选区域。

RI:对于一个候选样本,RI指的是在下一个epoch该候选样本未参与训练前的测试得分,与当前epoch该候选样本参与训练后的测试得分之差。对于一张图像,我们将所有候选区域的RI降序排列,只选RI最大的候选区域作为训练的监督信号。

结果

Deep Self-Taught Learning for Weakly Supervised Object Localization
Deep Self-Taught Learning for Weakly Supervised Object Localization
Deep Self-Taught Learning for Weakly Supervised Object Localization