Prime Sample Attention in Object Detection论文阅读翻译

文章目录

Prime Sample Attention in Object Detection论文阅读翻译

一、Abstract
二、Introduction

Contributions：

三、Prime Samples

3.1 A Revisit of mAP
3.2 A Revisit of False Positives.
3.3 Hierarchical Local Rank (HLR)

四、Learn Detectors via Prime Sample Attention

4.1 Importance based Sample Reweighting
4.2 Classification-Aware Regression Loss

五、Experiments
六、个人总结

论文下载地址：点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集，应该算比较全，目前2020ECCV持续更新中，欢迎下载…

一、Abstract

在目标检测中，平等对待所有样本并最大化ap是一种常见的范式。本文作者主要是想去研究不同样本如何对以map来评估的整体性能做的贡献来重新审视这个范式。作者的研究表明每个mini-batch中的样本既不是独立的，也不是同等重要的，因此分类器平均性能更好不一定会产生更高的mAP。作者提出了Prime Samples的概念，主要样本对检测性能起关键作用，并进一步提出了一种简单有效的采样学习策略PrIme Sample Attention(PISA)，将训练过程的重心指向这些主要样本。作者的实验证明，在训练检测器时，聚焦于主要样本通常比聚焦于困难样本会更有效。

二、Introduction

       现在的一阶二阶目标检测框架通常都是采用的基于区域的方法，训练检测器来对采样区域进行分类和定位，因此区域样本的选择对目标检测器的成功至关重要。实际上大多数样本都位于背景区域，因此简单地输入所有样本或随机子集并优化平均损失显然不是一个非常有效的策略。
       最近的研究表明，聚焦于困难样本能有效提升目标检测器性能，如OHEM和Focal Loss。前者显式地选择困难样本，即loss值高的样本；后者提出了一个新的损失函数对样本重加权，强调困难样本。
       尽管随机采样或hard mining简单且被广泛使用，但就训练检测器而言可能并不一定是最佳的采样策略。仍然存在一个问题：对训练一个目标检测器来说，最重要的样本是怎样的。本文中作者针对这一问题做了研究，目的是去找到一种方法能够更有效地对各区域进行采样/加权。
       作者的研究揭示了在设计采样策略时需要考虑两个重要方面：(1)样本不应当被视为独立或同等重要的。基于区域的目标检测是在大量的候选边界框中选取一个子集来覆盖一幅图像中的所有目标，因此不同样本的决策间是互相竞争而不是独立的。一般当所有感兴趣的目标都确保被覆盖时，使每个目标附近的某个边界框获得高分是比较可取的，而不是试图对所有的正样本都赋高分。研究表明更关注那些与GT有最高IoUs值的正样本是实现这一目标的有效途径。(2)分类和定位是相关联的。那些精确定位于GT周围的样本有很强的隐式含义，即定位较好的样本需有高分类置信度分数。
       因此作者提出了一种简单有效的区域采样和学习的方法PISA，其中重要样本是指那些对得到高检测性能起重要作用的样本。作者定义层次局部排名(HLR)作为重要性度量，使用IoU-HLR对每个小批量的正样本排序，Score-HLR对负样本进行排序。这种排序策略会将每个目标周围IoU值最高的正样本和每个簇中得分最高的负样本放在排序表的最前面，并通过一个简单的重加权机制将训练重点指向它们。作者还设计了一个分类感知回归损失来联合优化分类和回归分支，这个损失会抑制那些回归损失较大的样本，从而加强对重要样本的关注。

Contributions：

       (1) 探索了对训练一个目标检测器来说什么样的样本是重要的，从而建立了主要样本的概念。
       (2) 设计了层次局部排序(HLR)，对样本的重要性进行排序，并在此基础上提出了基于重要性的重加权机制。
       (3) 引入了一种新的损失称为分类感知回归损失，联合优化分类和回归分支，进一步加强对主要样本的关注。

三、Prime Samples

作者研究认为每个样本的重要性主要取决于其IOU值或置信度分数，因此作者提出了一种新的排序策略HLR(IoU-HLR and Score-HLR)来作为评估重要性的定量方法。

3.1 A Revisit of mAP

mAP是一个广泛使用的评估检测器性能的度量。计算方法如下，给定一幅标注了GT的图像，那些与其距离最近的GT之间的IoU大于阈值的边界框，或如果没有IOU超过阈值的边界框则取其中得分最高的边界框将被标记为TP，其他边界框会被标为FP。召回率定义为TP占总的正样本的比例，精度定义为检测结果中TP的比例。在测试集上改变阈值θ能够获得精度-召回率曲线，根据曲线下的面积去计算每个类的平均精度，mAP即为所有类的ap的平均值。
mAP的计算方式揭示了对于目标检测器如何判断哪种正样本更重要的两个标准。(1)在所有与GT有重叠的边界框中，IoU值更高的边界框更重要，因为它的IoU值会直接影响召回率。(2) 对不同目标的IoU值最高的边界框，其中IOU值更高的可能更重要，因为它们会随着阈值θ调整成为最后一批低于阈值的，因此对精度会有较大的影响。

3.2 A Revisit of False Positives.

FP主要来源于将负样本误分为正样本，这样会导致准确率和mAP的降低。但并不是所有的误分类样本都会影响到最终结果。在推理时，如果存在多个重叠较高的负样本，则只保留其中得分最高的样本，其余样本在NMS后丢弃。这样如果一个负样本与另一个分数较高的样本比较接近，那么即使负样本的分数也很高，由于它不会被保留在最终的结果中，它的重要性也会降低。这样我们就可以知道哪些负样本是重要的。(1)在某一区域的所有样本中，得分最高的样本最重要。(2)在不同区域所有得分最高的样本中，得分越高的样本越重要，因为得分越高的样本会首先降低精度。

3.3 Hierarchical Local Rank (HLR)

       在以上分析的基础上，作者提出了IoU局部排序(IoU-HLR)和分数局部排序(Score-HLR)来对小批量中的正负样本的重要性进行排序。这个排序以分层的方式进行计算，反映了局部(围绕每个GT或一些局部区域)和全局(围绕整个图像或mini-batch)的关系。并且是根据样本的最终位置而不是回归前的坐标计算的IoU-HLR和Score-HLR，因为mAP是根据回归后的样本评估的。
       如下图所示，为计算IoU-HLR，作者先将所有样本根据离它们最近的GT分成不同的组。然后将每组样本根据其与GT的IoU值进行降序排序，得到IoU局部排序(IoU-LR)，随后根据IoU-LR进行采样并以降序排列。也就是先收集所有的top1 IoU-LR样本进行排序，然后依次top2、top3等。经过这两个步骤即可得到所有样本的一个排序，即IoU-HLR。IoU-HLR会将具有较高局部顺序的正样本放在前面，这些样本对GT来说是最重要的。其次，在每个小分组内还会根据loU对样本进行重排序。通常排在前面的那些样本就能够确保具有较高的准确性，因为它们能够直接影响召回率和准确性，尤其是在IoU阈值较高时。而排在后面的那些样本对实现高检测性能而言则相对不那么重要。
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR
       如下图所示，实线是不同IoU阈值下的召回率-精度曲线。作者通过增加样本的分数模拟了一些实验，在相同预算下，将总损失降低10％并增加top5和top25 IoU-HLR样本的得分，结果表明，只关注于top样本比平等关注更多样本效果更好。
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR
       作者以计算IoU-HLR的类似方式计算负样本的Score-HLR。与根据GT来分组的正样本不同，负样本可能会出现在背景区域，因此作者先通过NMS将它们分组到不同的簇中。作者将所有前景类中的最高分作为负样本的分数，然后执行与计算IoU-HLR相同的步骤，如上上图所示。
       作者在下图中绘制了随机样本，困难样本和主要样本的分布，横坐标为IoU，纵坐标为分类损失。可以看到，困难正样本会有较高的分类损失，并沿loU轴在较大范围内分散，而主要正样本会倾向于IoU较高，分类损失较低。困难负样品往往具有较高的分类损失和较高的IoU，而主要负样本也会包含一些低损失样本，并且IoU的分布更加分散。这表明这两类样本具有本质上不同的特征。
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR

四、Learn Detectors via Prime Sample Attention

目标检测的目的不是去获得更好的平均分类精度，而是要在样本集的主要样本上尽可能地获得更好的检测性能。如果像OHEM一样使用top IoU-HLR样本进行训练，mAP会显著下降，因为大多数主要样本都是简单样本，无法提供足够的梯度来优化分类器。
作者提出了一种简单有效的采样和学习策略Prlme Sample Attention，它会更关注主要样本。 PISA由两个部分组成：基于重要性的样本加权（ISR）和分类感知回归损失（CARL）。使用PISA会使训练过程偏向主要样本，而不是均匀地对待所有样本。首先，主要样本的损失权重会大于其他样本，这样分类器在这些样本上会更加准确。其次，分类器和回归器是通过联合目标学习的，因此相对于不重要的样本，主要正样本的得分得到了提高。

4.1 Importance based Sample Reweighting

       给定相同的分类器，其性能分布通常与训练样本的分布相匹配。如果部分样本在训练数据中出现的频率更高，则这些样本会有更好的分类精度。硬采样和软采样是两种更改训练数据分布的方法，硬采样是从所有候选项中选择样本子集来训练模型，而软采样是给所有样本分配不同的权重。硬采样可以看作是软采样的一种特殊情况，为每个样本分配的损失权重为0或1。
       为了使改动很少且适用于现有的框架，作者提出了一种名为基于重要性的样本重加权（ISR）软采样策略，该策略根据重要性为样本分配不同的损失权重。 ISR由正样本重加权和负样本重加权组成，分别表示为ISR-P和ISR-N。作者采用IoU-HLR作为正样本的重要性度量，采用Score-HLR作为负样本的重要性度量。给定了重要性度量，剩下的就是如何将重要性映射到适当的损失权重。
       作者首先通过线性映射将排序转换为实数。根据HLR的定义，在每个类中分别计算HLR(N个前景类和1个背景类)。对于类j，假设共有nj个样本，其对应的HLR为{r₁, r₂, …, r_nj} (0≤r_i≤n_j-1)，使用线性函数将r_i转换为u_i：
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR
       u_i表示类j的第i个样本的重要性度量值。n_max表示所有类中n_j的最大值，保证不同类中排名相同的样本被分配到相同的ui中。并且我们需要使用一个单调递增函数来将样本重要性度量值ui转换为损失权重w_i，这里作者采用指数形式，γ是程度因子，表示将要偏多少给重要样本，β是决定最小样本权值的偏置。
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR
       通过提出的重加权机制，分类损失可改写为下式，其中n和m分别为正样本数和负样本数，s和 $\hat{s}$ 表示预测分数和目标分类分数。由于简单地增加损失权重会改变总损失值以及正负样本损失的比例，因此作者将w归一化为w’来保持总损失不变。
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR

4.2 Classification-Aware Regression Loss

       重加权分类损失是加大对主要样本的关注的一个直接方法。此外作者还提出了另一种方法来突出主要样本，这是受前面分类和定位是相关的讨论的启发。作者使用分类感知回归损失(CARL)来联合优化这两个分支的损失。CARL可以提高主要样本的得分，同时抑制其他样本的得分。回归质量决定了样本的重要性，作者期望分类器能够对主要样本输出更高的分数。两个分支间的优化应该是相关的，而不是独立的。
       解决方案是添加一个分类感知回归损失，以便梯度从回归分支传递到分类分支。作者提出了CARL，p_i表示对应的GT类的预测概率，di表示输出回归偏移量。作者使用指数函数将p_i转换为v_i，然后根据所有样本的平均值重新对其进行缩放得到c_i。L是常用的smooth L1 loss。
Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR
       很明显ci的梯度与原始回归损失L(di, $\hat{di}$ )成正比。回归损失较大的样本的分类分数的梯度会比较大，也就是对分类分数的抑制作用会更强。L(di, $\hat{di}$ )反映了样本i的定位质量，可以被视为IOU的估计，进一步被视为IoU-HLR的估计。排名靠前的样本的回归损失较低，因此分类分数的梯度会较小。使用CARL，分类分支还会受到回归损失的监督，不重要样本的得分被大大抑制，对主要样本的关注则会被加强。

五、Experiments

Prime Sample Attention in Object Detection论文阅读翻译 - 2020CVPR

六、个人总结

这篇文章应该算是第一篇对标签分配这一块开始发力的论文，指出了传统检测中训练时平等地对待所有样本是存在一定问题的，因此作者提出了PISA，其主要目的是将检测器训练过程的重心指向那些对检测性能起关键作用的主要样本。作者将正样本按每个实例进行划分，对每个实例依次取排在IOU值较高的top-n正样本，由于这些正样本对检测性能的影响较大，所以作者对其赋予更大的权重，但这里有个问题就是只依据IOU来作为度量的话，相同IOU值大小的正样本的质量可能也会存在很大的差异。负样本会先通过NMS做一个聚类，然后是根据分数做和正样本差不多的操作。然后通过ISR去对样本进行重加权，以及提出了一个CARL损失。非常insight的一篇工作，直接导致现在标签分配论文发的哗哗的。