Introduction

Motivation：Regression-based方法有局限性，希望还是使用detection-based可以估计出每个人头的位置信息。直接使用RGB，由于有些实在太小，进行detection很容易发生underestimation。所以，希望通过RGBD，以depth信息辅助进行detect（人头的远近与检测框的大小是直接相关的，depth信息帮助预测检测框size）。

Idea：

基于denseity map，添加分支，进行detect
Depth-adaptive kernel。使用depth信息得到the size of adaptive kernel，生成gt
Use RetinaNet and leverage depth for anchor sizes initialization

另外，bbox的标注十分麻烦，作者制作的RGBD数据集只标注了points，bbox则是依据depth of the head center生成的，并用于train and test

Method

RDNet
分为regression module&detection module

regression module就是使用CSRNet，以及gt换成depth-based kernel生成。得到的density map替代普通RetinaNet CNN部分得到的feature，density map非常精细，很适合用来检测tiny targets。
另外，在depth信息与CNN feature的直接融合上，本文是利用depth制作了5个mask，然后与density feature直接相乘，得到五个不同尺度(不同深度目标)的feature，然后送去detect

detection module主要是retinaNet，以及anchor用到了depth先验信息来估计大小。

Experiments

RDNet主要是用来做detection，对比CSRNet结果，没有利用depth信息提升MAE，我可以在这方面做文章：
RDNet

RDNet

RDNet：Density Map Regression Guided Detection Network for RGB-D Crowd Counting and Localization

Introduction

Method

Experiments

相关推荐