R-CNN三部曲（三）：Faster R-CNN

Fast R-CNN已经改进了很多R-CNN的缺点了，但还是有一个局限导致模型的速度无法进一步提升，那就是region proposals的生成，如果还是用selective search的方法对每个图像挑选两千个region proposals，那么模型始终还是无法得到改进的。而Faster R-CNN就针对这个问题，提出了region proposal network。

首先来回顾一下selective search，它综合了图像层次纹理、大小、形状进行分割与合并，筛选出region proposals，个人觉得这种方法更像传统的机器学习算法，引入大量的先验理论来辅助分析，最大的问题就是先验知识可能并不完整，即可能应用这种方法在某些情况下分析得到的region proposals并不准确，所以我们才需要生成大量region proposals，再进一步判断。

而Region Proposal Network，个人觉得就是深度学习在生成region proposals的应用，简单来说，就是通过神经网络分析每一幅图像的ground truth bounding box，模型分析的数据足够多，它就可以慢慢学习，或者说记住对于不同种类的图像，判断哪些是它的前景，哪些是它的背景：

R-CNN三部曲（三）：Faster R-CNN
接下来开始详细分析RPN。首先我们要知道什么是anchor：

R-CNN三部曲（三）：Faster R-CNN
anchor其实可以看成候选框，它有九种不同的大小尺寸（左上图），覆盖在整副图像中（右图的红色部分就是anchor的覆盖范围），其实就是生成九种anchor，然后再想办法计算每个位置的不同anchor的分类得分（判断是不是前景）以及计算对应的边界框回归结果。但是，理解是这样理解，千万不能认为实际上真的遍历生成那么多个anchor，然后计算CNN，不然这个模型就比R-CNN的效率还要低了，我们来看看它的具体过程：

R-CNN三部曲（三）：Faster R-CNN
我们可以通过上图来了解这个过程。要注意的是上图只是展示了RPN的过程，而最初输入的图片会经过CNN进行处理，通过用更高维的向量表示每个位置的特征，使得原图尺寸大大减小，所以可以看到RPN的输入比原图尺寸小了很多，但是有1024个通道。

在RPN的最初也会利用CNN降维，然后，我们需要在每个位置分析9个（其他数量也行，一般是9个）不同尺寸的anchor，但是我们回想一下，我们在分析anchor的时候，其实本质上就是想计算出每个anchor的分类得分以及边界框回归值，所以，比如现在来做分类，那么feature map有两个尺寸（w/16，h/16）不变，而512则变成（9，2），这里的意思就是模型利用每个位置512维的特征向量，计算出9个anchor的两个分类得分（判断是背景还是前景，一定要注意这里只是二分类）。同样道理，在另一个head，模型计算出9个anchor的4个边界框回归值。

R-CNN三部曲（三）：Faster R-CNN
以上就是Region Proposal Network的基本思想，然后我们来看看完整的Faster R-CNN，也就是最初的图，我们来看看整个模型的训练过程，数据就是一幅幅图像，加上它们的标注数据，标注数据就是分类结果加上边界框的坐标和宽高。一开始输入一副图像，经过CNN的处理，在CNN的中间层把feature map扔到RPN，用之前提到的过程计算分类得分和边界框回归值，然后挑选出具有最大IoU或者与ground truth边界框超出重叠阈值的候选边界框，然后利用非极大抑制（Non-maximum suppression）去除那些重叠重复的候选边界框，筛选出最终的候选边界框，得到了候选边界框之后，其实其余的过程就和Fast R-CNN一样了，所以Faster R-CNN和Fast R-CNN最大的不同就是提出了RPN。

更多的细节强烈建议看这个博客：http://www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/

在github写的自然语言处理入门教程，持续更新：NLPBeginner

在github写的机器学习入门教程，持续更新：MachineLearningModels

想浏览更多关于数学、机器学习、深度学习的内容，可浏览本人博客

R-CNN三部曲（三）：Faster R-CNN

相关推荐