RDNet

RDNet:Density Map Regression Guided Detection Network for RGB-D Crowd Counting and Localization

Introduction

Motivation:Regression-based方法有局限性,希望还是使用detection-based可以估计出每个人头的位置信息。直接使用RGB,由于有些实在太小,进行detection很容易发生underestimation。所以,希望通过RGBD,以depth信息辅助进行detect(人头的远近与检测框的大小是直接相关的,depth信息帮助预测检测框size)。

Idea:

  1. 基于denseity map,添加分支,进行detect
  2. Depth-adaptive kernel。使用depth信息得到the size of adaptive kernel,生成gt
  3. Use RetinaNet and leverage depth for anchor sizes initialization

另外,bbox的标注十分麻烦,作者制作的RGBD数据集只标注了points,bbox则是依据depth of the head center生成的,并用于train and test

Method

RDNet
分为regression module&detection module

regression module就是使用CSRNet,以及gt换成depth-based kernel生成。得到的density map替代普通RetinaNet CNN部分得到的feature,density map非常精细,很适合用来检测tiny targets。
另外,在depth信息与CNN feature的直接融合上,本文是利用depth制作了5个mask,然后与density feature直接相乘,得到五个不同尺度(不同深度目标)的feature,然后送去detect

detection module主要是retinaNet,以及anchor用到了depth先验信息来估计大小。

Experiments

RDNet主要是用来做detection,对比CSRNet结果,没有利用depth信息提升MAE,我可以在这方面做文章:
RDNet