理解Faster R-CNN

视频：

先将图像输入CNN获得feature map，然后直接在feature map上加一个RPN网络用于自动提取候选框，在神经网络中边迭代边自动地生成一些候选框。

然后对生成的候选框进行二分类任务，判断候选框区域是背景还是物体，将判断为物体的候选框与ground truth进行回归任务，进行微调。

将产生的候选框进行RoI pooling最后做物体分类与边界回归得出最终结果。

一共有四个loss值：1.RPN判断是否为物体的二分类2.RPN边界回归3.最终分类打分4.最终边界回归

论文：

所谓的RPN网络是一个全卷积网络（没有全连接层），它能自动的预测物体边界并对候选框进行打分。

论文指出，卷积特征图可以用来生成Region Proposal，就是在feature map后面添加额外的卷积层，用于回归候选框的边界和给对象打分。

理解Faster R-CNN

Faster R-CNN 介绍了一种新型的anchor技术，这种方案可以看作是金字塔形状的回归引用，显然避免的枚举图像和不同尺度的过滤器所带来的开销。这里取代了方法a（图像金字塔）方法b（不同大小的filter）

为了使RPN与Fast R-CNN网络联合起来，论文制定了一种计划：交替地进行候选框微调任务和物体检测打分任务。这种方案收敛较快，而且使得这两个任务在网络中共享卷积特征。

Faster R-CNN由两个模型组成，第一个模型是一个产生候选框的深度全卷积网络：第一部分是特征提取和RPN网络构建

第二个模型是使用候选框的Fast R-CNN物体检测器。

RPN网络输入为一张任意大小的图像，输出为一系列的矩形候选框以及判断是否为物体的打分。

使用VGG网络的到特征图conv feature map，在这个基础上，采用滑动窗口sliding window再做卷积（又得到特征图）

3*3 = 9种anchor 长宽比1：1；1：2；2：1 scale大小：128；256；512

每个sliding window的中心点（局部感受野local receptive field）都会产生9个anchor

每个anchor都需要分别输入：分类层（获得2个score，正类是物体，负类是背景）、回归层（获得4的值x,y,w,h）

所以RPN采用3x3的滑动窗口将conv feature map映射到更低维度的特征，再将该低维度特征分别输入到两个1x1的卷积层（分类和回归），以获得全连接层的效果。

这个k个anchor到底用在哪里了呀？日哦？？？