R-CNN略读
题目:Rich feature hierarchies for accurate object detection and semantic segmentation
第一作者:Ross Girshick 大佬 UC Berkeley
发表:CVPR2014
这篇文章应该是受AlexNet的启发,进而想把CNN的强泛化与特征提取的能力应用到目标检测和语音分割上面,结果显然获得了巨大的成功,在PASCAL上的mAP达到了史无前例的53.3%,同时还发现在训练数据较小的时候,可以让网络在另外一个数据集上训练,然后在小数据集上fine-tune,这个在现在已经成为常规操作了。
网络的结构为selective research(ss) + CNN + 一系列SVM分类器
ss是为了提取出region proposals,输入一张input image,ss从中提取出多个(论文里是2k)region proposals,经过reshape成为warped region送入CNN产生特征向量,最后送入SVM进行分类。
其中产生region proposal的方法有很多种,比如文中提到的objectness, ss, CPMC等等,这里采用ss主要是为了和之前的检测方法进行对比,不知道采用其他的方法会不会效果更好,ss算法可参考下文:
https://blog.****.net/u011436429/article/details/80277633
CNN的设计参考论文就好了,然后是SVM,下面这篇博文写的不错:
https://zhuanlan.zhihu.com/p/31886934,这里采用SVM感觉有点赘余,作者似乎在后面也把SVM去掉了
尽管在object detection上取得了巨大的成功,不过可以发现,提取region proposals并分别送入CNN的做法是比较耗费资源且违反常识的,同样是这位大佬显然也想到了这个问题,并在下一篇论文Fast R-CNN中给出了解答,现在有点怀疑他是不是为了多发一篇论文(笑