论文笔记(七)泛读 :Weakly Supervised Region Proposal Network and Object Detection
文章目录
论文笔记(七)泛读 :Weakly Supervised Region Proposal Network and Object Detection
--------------------分割线--------------------------------------
新年第一弹!这是CVPR2018的一篇弱监督目标检测的文章,主要贡献在于提出了一种区域候选网络很适合WSOD的候选框生成,并且实验结果达到了SOTA,而不同于之前的网络直接采用SS或者Eage Box方法来得到一大堆候选框尽可能的穷举所有的可能位置。
--------------------分割线--------------------------------------
method
如上图所示,该区域候选网络包括两部分1.候选框粗糙生成(CPG)2.候选框微调(PR),然后通过第二阶段得到的候选框进行多实例学习网络(OICR)。
候选框粗糙生成
这一阶段的灵感来自于CNN存在隐藏的位置信息,如图所示,这是VGG16在ImageNet分类数据集上的卷积层响应图(就是特征图的所有通道上的平均值),可以看到,前面几层的卷积能提取到一些低级的视觉特征,后面的几层则更聚焦于一些语义信息。因此,我们首先将响应映射图调整为原始图像大小,然后将第二到第四个conv层的响应映射图融合起来得到fusion层。然后使用Edge Boxes(EB)来评估初始提案P0的客观评分,以计算每个初始提案中存在的边缘数量。一般来说,背景部分的边缘数量是比较小的,所以我们根据此评分来筛选出前N1个候选框得到第一阶段的候选框粗生成.。
候选框微调
由粗略提案生成阶段生成的提案仍然非常嘈杂,因为在类似边缘的响应图的背景区域上也有很高的响应。所以我们使用基于区域的CNN分类器对候选框的目标得分进行重新评估。如上图所示,stage2其实就是目标检测中的分类网络,经过几层全卷积网络和softmax后得到。然后与第一阶段的评分相乘得到了重新评估的分数。对这些分数进行重新排序来筛选出更有可能包含目标的候选框。由于这些候选框仍然是冗余的,所以我们再进行一次nms来得到N2个候选框作为第二阶段的结果。
为了训练这个只有图像级标签的网络,我们使用了OICR(在这一篇博客中有说到)来更好的得到每个候选框的分数。这一阶段的损失为
弱监督检测网络
这一阶段与上一阶段相似,但是上一阶段的目的是得到每个候选框是否包含目标的评分,而这一阶段最终得到每个候选框相对于每个目标类别的评分。这里用到的仍然是OICR网络,损失函数为。
experiment
数据集为voc2007
mAP:CorLoc:
---------------------分割线-------------------------------
感觉自己又灌了一篇水。。。 好想回实验室啊,在家状态8太行。。。。。。。