【目标检测】CenterNet :Objects as Points

论文：《CenterNet :Objects as Points》 2019.4.16

论文地址：https://arxiv.org/pdf/1904.07850.pdf

代码：https://github.com/xingyizhou/CenterNet

博客原文地址：

https://blog.****.net/jacke121/article/details/90572692?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-5

https://blog.****.net/ioir123juuki/article/details/103732962?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-14&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-14

1、摘要

目标检测识别往往在图像上将目标以轴对称的框形式框出。大多成功的目标检测器都先穷举出潜在目标位置，然后对该位置进行分类，这种做法浪费时间，低效，还需要额外的后处理。本文中，我们采用不同的方法，构建模型时将目标作为一个点——即目标BBox的中心点。我们的检测器采用关键点估计来找到中心点，并回归到其他目标属性，例如尺寸，3D位置，方向，甚至姿态。我们基于中心点的方法，称为：CenterNet，相比较于基于BBox的检测器，我们的模型是端到端可微的，更简单，更快，更精确。

我们的模型实现了速度和精确的最好权衡，以下是其性能：

MS COCO dataset, with 28:1% AP at 142 FPS, 37:4% AP at 52 FPS, and 45:1% AP with multi-scale testing at 1.4 FPS。

2、简介

One stage detectors 在图像上滑动复杂排列的可能bbox（即锚点）,然后直接对框进行分类，而不会指定框中内容。

本文通过目标中心点来呈现目标（见图2），然后在中心点位置回归出目标的一些属性，例如：size, dimension, 3D extent, orientation, pose。而目标检测问题变成了一个标准的关键点估计问题。我们仅仅将图像传入全卷积网络，得到一个热力图，热力图峰值点即中心点，每个特征图的峰值点位置预测了目标的宽高信息。

模型训练采用标准的监督学习，推理仅仅是单个前向传播网络，不存在NMS这类后处理。

【目标检测】CenterNet :Objects as Points

对我们的模型做一些拓展（见图4），可在每个中心点输出3D目标框，多人姿态估计所需的结果。

对于3D BBox检测，我们直接回归得到目标的深度信息，3D框的尺寸，目标朝向；

对于人姿态估计，我们将关节点（2D joint）位置作为中心点的偏移量，直接在中心点位置回归出这些偏移量的值。

【目标检测】CenterNet :Objects as Points

由于模型设计简化，因此运行速度较高（见图1）

【目标检测】CenterNet :Objects as Points

3、主要创新点

我们的方法与基于锚点的one-stage方法相近。中心点可看成形状未知的锚点（见图3）。但存在几个重要差别（本文创新点）：

第一，我们分配的锚点仅仅是放在位置上，没有尺寸框。没有手动设置的阈值做前后景分类。（像Faster RCNN会将与GT IOU >0.7的作为前景，<0.3的作为背景，其他不管）；

第二，每个目标仅仅有一个正的锚点，因此不会用到NMS，我们提取关键点特征图上局部峰值点（local peaks）；

第三，CenterNet 相比较传统目标检测而言（缩放16倍尺度），使用更大分辨率的输出特征图（缩放了4倍），因此无需用到多重特征图锚点；

【目标检测】CenterNet :Objects as Points

通过关键点估计做目标检测：

我们并非第一个通过关键点估计做目标检测的。CornerNet将bbox的两个角作为关键点；ExtremeNet 检测所有目标的最上，最下，最左，最右，中心点；所有这些网络和我们的一样都建立在鲁棒的关键点估计网络之上。但是它们都需要经过一个关键点grouping阶段，这会降低算法整体速度；而我们的算法仅仅提取每个目标的中心点，无需对关键点进行grouping 或者是后处理；

单目3D 目标检测：

3D BBox检测为自动驾驶赋能。Deep3Dbox使用一个 slow-RCNN 风格的框架，该网络先检测2D目标，然后将目标送到3D 估计网络；3D RCNN在Faster-RCNN上添加了额外的head来做3D projection；Deep Manta 使用一个 coarse-to-fine的Faster-RCNN ，在多任务中训练。而我们的模型同one-stage版本的Deep3Dbox 或3D RCNN相似，同样，CenterNet比它们都更简洁，更快。

特点：

CenterNet相比于之前的one-stage和two-stage的目标检测有什么特点？

CenterNet的“anchor”仅仅会出现在当前目标的位置处而不是整张图上撒，所以也没有所谓的box overlap大于多少多少的算positive anchor这一说，也不需要区分这个anchor是物体还是背景 -因为每个目标只对应一个“anchor”，这个anchor是从heatmap中提取出来的，所以不需要NMS再进行来筛选。
CenterNet的输出分辨率的下采样因子是4，比起其他的目标检测框架算是比较小的(Mask-Rcnn最小为16、SSD为最小为16)。

4、网络结构

4.1、基本知识

【目标检测】CenterNet :Objects as Points

4.2、损失函数

中心点损失函数，像素级逻辑回归的focal loss。

【目标检测】CenterNet :Objects as Points

其中 α和β是focal loss的超参数，实验中两个数分别设置为2和4， N是图像 I 中的关键点个数，除以N主要为了将所有focal loss归一化。
【目标检测】CenterNet :Objects as Points

4.3、推理与检测

4.3.1、2D检测

找到关键点：
在推理的时候，我们分别提取热力图上每个类别的峰值点。如何得到这些峰值点呢？做法是将热力图上的所有响应点与其连接的8个临近点进行比较，如果该点响应值大于或等于其八个临近点值则保留，最后我们保留所有满足之前要求的前100个峰值点

【目标检测】CenterNet :Objects as Points

4.3.2、3D检测

【目标检测】CenterNet :Objects as Points

4.3.3、人体姿态估计

【目标检测】CenterNet :Objects as Points

4.3.4、backbone

实验了4个结构：ResNet-18, ResNet-101, DLA-34， Hourglass-104. 我们用deformable卷积层来更改ResNets和DLA-34，按照原样使用Hourglass 网络。

【目标检测】CenterNet :Objects as Points

Hourglass：堆叠的Hourglass网络【30,40】通过两个连续的hourglass 模块对输入进行了4倍的下采样，每个hourglass 模块是个对称的5层下和上卷积网络，且带有skip连接。该网络较大，但通常会生成最好的关键点估计。

ResNet：Xiao et al. [55]等人对标准的ResNet做了3个up-convolutional网络来dedao更高的分辨率输出（最终stride为4）。为了节省计算量，我们改变这3个up-convolutional的输出通道数分别为256,128,64。up-convolutional核初始为双线性插值。

DLA：即Deep Layer Aggregation (DLA)，是带多级跳跃连接的图像分类网络，我们采用全卷积上采样版的DLA，用deformable卷积来跳跃连接低层和输出层；将原来上采样层的卷积都替换成3x3的deformable卷积。在每个输出head前加了一个3x3x256的卷积，然后做1x1卷积得到期望输出。

4.3.5、网络结构

【目标检测】CenterNet :Objects as Points