MDSSD: Multi-scale Deconvolutional Single Shot Detector for Small Objects论文笔记

Attention:

论文解读的博客原文发布于个人github论文合集 欢迎关注,有想法欢迎一起讨论!私信评论均可。

后面有些语法在****的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

创建人 github论文汇总 个人博客 知乎论文专栏
ming71 paperdaily chaser 专栏

论文发布日期:20018.5.18 [TIP]<p/span>

  只读了不到半小时,没仔细看,理解也有限,但我实在没看出这篇能在2018年中旬发在TIP的文章有任何的insight和能拿得出的idea,但是老说别人论文灌水可能反而是自己水平不够,希望有看过这篇论文并且有启发的人能分享一下感想,并且指出我的不足和短见…
email: [email protected]
qq: 1343545543(加我请备注)

1. Motivation

  为了相比SSD提高小目标检测效果,同时保持检测速度不至于像DSSD一样个位数。

2. Implemention

MDSSD: Multi-scale Deconvolutional Single Shot Detector for Small Objects论文笔记
  这篇论文一张图就够了。采用的VGG16作backbone,因为ResNet-152的降采样步长太大小目标丢失。相比SSD检测分支,作者仅仅引入了底层和高层的跨级连接,进行信息融合,拼接方式如下。上采样是转置卷积,Norm采用的L2,ele sum融合,然后加3x3抹平。仔细读了下这个融合模块,确实平平无奇,也没什么insight....
MDSSD: Multi-scale Deconvolutional Single Shot Detector for Small Objects论文笔记

3. Question

  对这个看上去很直接不讲道理也没什么创新的工作,有这么几个问题:

  • 融合层选择的降采样步长跨越为6-8倍,这么大的跨度不怕语义分歧吗?
  • 是不是转置卷积的效果比双线性插值好?(肯定不会好很多,不然都不用双线性插值了)类似沙漏网络的上采样然后和降采样信息融合的方法优势在哪里?和这种上采样融合多尺度特征有什么异同?