理解Faster R-CNN

理解Faster R-CNN

视频: 

先将图像输入CNN获得feature map,然后直接在feature map上加一个RPN网络用于自动提取候选框,在神经网络中边迭代边自动地生成一些候选框。

然后对生成的候选框进行二分类任务,判断候选框区域是背景还是物体,将判断为物体的候选框与ground truth进行回归任务,进行微调。

将产生的候选框进行RoI pooling最后做物体分类与边界回归得出最终结果。

一共有四个loss值:1.RPN判断是否为物体的二分类2.RPN边界回归3.最终分类打分4.最终边界回归

论文:

所谓的RPN网络是一个全卷积网络(没有全连接层),它能自动的预测物体边界并对候选框进行打分。

论文指出,卷积特征图可以用来生成Region Proposal,就是在feature map后面添加额外的卷积层,用于回归候选框的边界和给对象打分。

理解Faster R-CNN

Faster R-CNN 介绍了一种新型的anchor技术,这种方案可以看作是金字塔形状的回归引用,显然避免的枚举图像和不同尺度的过滤器所带来的开销。 这里取代了方法a(图像金字塔)方法b(不同大小的filter)

为了使RPN与Fast R-CNN网络联合起来,论文制定了一种计划:交替地进行候选框微调任务和物体检测打分任务。这种方案收敛较快,而且使得这两个任务在网络中共享卷积特征。

Faster R-CNN由两个模型组成,第一个模型是一个产生候选框的深度全卷积网络:第一部分是特征提取和RPN网络构建

第二个模型是使用候选框的Fast R-CNN物体检测器。

RPN网络输入为一张任意大小的图像,输出为一系列的矩形候选框以及判断是否为物体的打分。

使用VGG网络的到特征图conv feature map,在这个基础上,采用滑动窗口sliding window再做卷积(又得到特征图)

3*3 = 9种anchor 长宽比1:1;1:2;2:1 scale大小:128;256;512

每个sliding window的中心点(局部感受野local receptive field)都会产生9个anchor

每个anchor都需要分别输入:分类层(获得2个score,正类是物体,负类是背景)、回归层(获得4的值x,y,w,h)

所以RPN采用3x3的滑动窗口将conv feature map映射到更低维度的特征,再将该低维度特征分别输入到两个1x1的卷积层(分类和回归),以获得全连接层的效果。

这个k个anchor到底用在哪里了呀?日哦???