FSSD: Feature Fusion Single Shot Multibox Detector

文章目录

1. Motivation
2. Feature Fusion Module
3. Ablation Study
**Conclusion**

Attention:

原文发布于我的博客：https://ming71.github.io，有想法欢迎一起讨论！私信评论均可。
推荐直接上这里看原文，因为后面有些语法在****的markdown上不支持，导致显示bug，我就懒得改了，有需求直接访问原博客查看。

论文发布日期：2017.12 <p/span>

这篇论文行文很一般，结构组织也不是很好，比如relate work恨不得像本科毕设的绪论一样把目标检测介绍个遍，抓不住重点，没有意识到自己到底要做什么；最重要的是他在介绍relate work时没有进行评判和分析，真的只是单纯提了一下…英语表达也比较中式。说的一些观点其实都是已经反复提到见怪不怪的，所以没有什么特别的intuition（这也正常，毕竟快2017年12月的东西），提出的这个结构有点强行改进的意思，作者也没分析这个结构work的思想和道理，不过这个角度还是值得思考。

1. Motivation

文章自称Motivation是改进特征融合做法，也值得指出了SSD和FPN的缺点（~~没什么新颖的，都是老调重弹就不说了~~），在SSD上只用较小的速度下降换取更好的效果，号称达到SOTA。
比较有意思的是，本文提到了多尺度特征的感受野限制检测精度的问题，这么早之前就有人提出了，他之前应该可能更早就有提了。

2. Feature Fusion Module

FSSD: Feature Fusion Single Shot Multibox Detector

简单来说本文工作一张图就够了。先concatenate融合各层特征到一个较大的尺度，然后在得到的特征图上构造特征金字塔。这么看来其实很像将TDM的最底层多加了几部降采样得到特征金字塔而已。
思考1：这篇文章的有趣之处在于，初步有一个base feature的概念。像M2Det一样通过将多尺度信息暴力融合得到基础特征，在此基础上进行多尺度的构建。只不过M2Det只用了两个层就够了，这里做实验也发现concatenate下选取的层并不是越多就能提升越大，提升是有瓶颈的，这说明了骨干网络的多尺度特征实际是有很大冗余的。
思考2：利用base feature构造多尺度特征，是对原来的尺度信息进行了破坏和重组，然后进行深度的构建，在深度上进行多尺度预测。这就有个问题，所谓利用多尺度信息，究竟是深度信息还是原来尺度信息？

3. Ablation Study

直接说几点结论：

选用哪些层的信息合适？
作者首先直接武断地抛弃VGG很高的层，认为信息过于抽象，其实未必准确，thunernet还直接加了个单像素的全局平均池化结果呢，STDN甚至还有1*1，至于这个抽象信息有没有用？怎样利用这个抽象信息？应该经过实验或者分析推导进行验证；
从实验结果对比，345行来看，在concatenate下信息是冗余的，没必要加太多的特征图；这也证明base feature进行多尺度构建的可行性。
ele-sum还是没有concatenate有效。
这里可以思考一下concatenate的作用和机制到底是怎样的，参见笔记。

Conclusion

本文的做法没什么可圈可点之处，几个思考和自己的理解值得尝试和再思考。

base feature基础上构建多尺度特征的可行性和特点
concatenate方法的理解