Evolution Plan--RCNN 2014-RBG
ILSVRC 2012--image classification
PASCAL VOC--object detection
总共分为三部:1.region proposals 2.Feature extraction 3. a set of class-specific linear SVMs
1.采样时采用selective search的方法。
2. extract a 4096-dimensional feature vector from each region proposal
网络结构:five convolutional layers and two fully connected layers
输入:227x227的RGB图片
将小框周围的所有像素包起来,包裹之前,将小框放大使得包裹的时候有p个被包裹起来的像素是原框周围的背景信息。
在识别时,在测试图片上提取2000个区域提案,对于每一个区域:修正区域大小以适合CNN的输入,做一次前向运算,将第五个池化层的输出(就是对候选框提取到的特征)存到硬盘。将每个提案包裹起来经过CNN得到它们的特征,对于每一类,使用为这一类训练的SVM,得到每个提取的特征向量的得分,得到一张图上所有区域的得分后使用NMS(每类独立)。特征矩阵是2000x4096,SVM的权重矩阵是4096xN,N是类别个数。