目标检测论文核心思想,18-19-20年论文梗概
论文太多来不及看,有些论文用了很大篇幅印证了某种模块有用或者没用,对于不研究这部分的人来说了解一下结论,这个模块有什么优缺点就够了。因而记录一下2018-2019-2020这几年泛读的论文梗概:
DetNet: A Backbone network for Object Detection
论文:DetNet: A Backbone network for Object Detection,2018年清华,Face++旷世合作论文,孙剑大神参与
目标分类训练的网络作为目标检测backbone是否合适?任务不同肯定有不同,本文就是研究任务切换时backbone直接用的优劣分析。
ImageNet分类模型直接做backbone不够好,检测分类两个任务有差异。
(i)诸如FPN和RetinaNet之类的最新物体检测器通常涉及额外的stage,以完成图像分类任务,以处理各种比例的物体。
(ii)对象检测不仅需要识别对象实例的类别,而且还需要在空间上定位位置。较大的下采样因子会带来较大的有效接收场,这对图像分类有利,但会损害对象的定位能力。
DetNet,这是专门为目标检测设计的新型骨干网络。
DetNet(4.8G FLOP)包括传统backbone分类任务,也保持了空间分辨率。MSCOCO上检测和分割任务都最棒。
检测的Backbone通常从ImageNet分类上面借鉴。
- AlexNet是第一个增加CNN层数的,为了减少计算,并增加感受野,它用stride为32下采样。
- VGGNet堆叠了k=3的卷积,来搭建更深的网络,也用了stride为32。
- GoogleNet提出了inception block来提取更多样的特征。
- ResNet在每个stage用了“bottleneck”和residual sum operation,这样就有了更高效的方式搭建更深的网络。
- ResNext和Xception都用了group convolution来替代传统卷积,它能减少参数量同时增加精度。
- DenseNet稠密地concat几层,在保证一定精度情况下减少参数。
- Dilated Residual Network跟他们不一样,它能用更小的stride来提取特征,DRN在分割上面取得可圈可点的成绩,但是在目标检测上面说的很少。
为解决小目标丢失,作者提出DetNet有以下特点: - stage数量是直接为目标检测设计的
- 虽然用了更多的stage,但是保持了高的空间分辨率的同时保持高感受野
DetNet有以下优点: - 它有检测要用的一样的stage数目,额外的stage P6都在ImageNet上训练过
- 得益于最后一个stage的高分辨率,DetNet在定位大目标的边界和找到丢失的小目标上表现很好。
https://zhuanlan.zhihu.com/p/38544422