Fast R-CNN理解

原文链接：https://www.cnblogs.com/CZiFan/p/9903518.html

0 - 背景

　　经典的R-CNN存在以下几个问题：

训练分多步骤（先在分类数据集上预训练，再进行fine-tune训练，然后再针对每个类别都训练一个线性SVM分类器，最后再用regressors对bounding box进行回归，并且bounding box还需要通过selective search生成）
时间和空间开销大（在训练SVM和回归的时候需要用网络训练的特征作为输入，特征保存在磁盘上再读入的时间开销较大）
测试比较慢（每张图片的每个region proposal都要做卷积，重复操作太多）

　　在Fast RCNN之前提出过SPPnet来解决R-CNN中重复卷积问题，但SPPnet仍然存在与R-CNN类似的缺陷：

训练分多步骤（需要SVM分类器，额外的regressors）
空间开销大

　　因此，该文提出的Fast RCNN便是解决上述不足，在保证效果的同时提高效率。基于VGG16的Fast RCNN模型在训练速度上比R-CNN快大约9倍，比SPPnet快大约3倍；测试速度比R-CNN快大约213倍，比SPPnet快大约10倍，在VOC2012数据集上的mAP大约为66%。

1 - 整体思路

1.1 - 训练

输入是224×224224×224
1.1.4 - 改进全连接层

　　由于卷积层计算针对的是一整张图片，而全连接层需要对每一个region proposal都作用一次，所以全连接层的计算占网络计算的将近一半（如下图）。作者采用SVD来简化全连接层计算。

　　　　　　　　

1.1.5 - 训练整体架构总结

　　图片引用自博客。

　　　　

1.2 - 测试

1.2.1 - 测试整体架构总结

　　图片引用自博客。

　　　　

2 - 思考

2.1 - 改进
- 卷积不再是重复对每一个region proposal，而是对于整张图像先提取了泛化特征，这样子减少了大量的计算量（注意到，R-CNN中对于每一个region proposal做卷积会有很多重复计算）
- ROIPooling的提出，巧妙的解决了尺度放缩的问题
- 将regressor放进网络一起训练，同时用softmax代替SVM分类器，更加简单高效
2.2 - 不足

　　region proposal的提取仍然采用selective search，整个检测流程时间大多消耗在这上面（生成region proposal大约2~3s，而特征提取+分类只需要0.32s），之后的Faster RCNN的改进之一便是此点。

3 - 结果

3.1 - mAP

　　FRCN相比其他算法表现更好，且注意到，VOC12由于数据集更大而使得模型效果提高很多。（这一角度也说明了数据对于当前深度学习的重要性不容忽视！）

3.2 - 速度

　　　　　　　　　　

3.3 - 多任务训练（multi-task）

　　由于本文提出的模型是基于R-CNN通过multi-task训练方式进行改进的，因此要说明multi-task的有效性。一共分为S/M/L三组，每组对应四列，分别为：
- 仅采用分类训练，测试也没有回归
- 采用论文中的分类+回归训练，测试没有回归
- 采用分段训练，测试没有回归
- 采用论文中的分类+回归训练，测试有回归
3.4 - 单尺度vs多尺度

　　多尺度表示输入图像采用多种尺度输入，在测试的时候发现多尺度虽然能在mAP上得到些许提升但也增加了时间开销（作者给出原因：深度卷积网络可以学习尺度不变性）。

　　　　　　　　　　

4 - 参考资料

https://blog.****.net/u014380165/article/details/72851319

https://www.cnblogs.com/CZiFan/p/9901729.html

https://www.cnblogs.com/CZiFan/p/9901000.html