参见 https://blog.****.net/u011974639/article/details/78053203

R-CNN的训练可分成下白四步:
（1）在数据集上训练CNN 。R-CNN论文中使用的CNN网络是AlexNet，数据集为ImageNet 。
（2）在目标检测的数据集上，对训练好的CNN做微调。
（3）用Selective Search搜索候选区域，统一使用微调后的CNN对这些区域提取特征，并将提取到的特征存储起来。
（4）使用存储起来的特征，训练SVM分类器。

一、有监督的预训练

一般的CNN模型层数多，模型的容量大，在标定数据少的情况下，这样的数据量是不够从新训练一个CNN模型的。故我们采用已训练好的AlexNet/VGG16模型的卷积层参数，使用这样已训练好的网络参数，可以较好的提取图片的特征。CNN网络是AlexNet，数据集为ImageNet 。

R-CNN 训练

二、fine-tuning

AlexNet是针对ImageNet训练出来的模型，AlexNet的卷积部分可以作为一个好的特征提取器，后面的全连接层可以理解为一个好的分类器。这里把AlexNet的softmax层替换为一个N+1神经元的输出层(N为存在物体的种类,即正样本；1为背景，即负样本)。然后做微调训练。

R-CNN 训练

原本ImageNet的输出类别有1000个，这里把1000个替换为21个(N=20,1为背景).

在训练CNN的时候会在网络的后面加上一个分类层，在训练完毕后，我们会移除最后的分类层，直接提取到前面的FC层，AlexNet的FC层为4096维。

对于一张图片，使用训练好的CNN基础上，将所有的图片的所有侯选区域塞到CNN里面，把得到的pool5 feature存到硬盘里面(这里一存，后面训练一取，非常耗费时间)

CNN在侯选区域上提取出了特征向量，例如2000个侯选区域，那么提取出来的就是2000*4096这样的特征向量(AlexNet的第一个FC层维度为4096,故pool5的输出为4096)。

三、在候选区域的特征向量上训练分类器

前面的CNN在侯选区域上提取出了特征向量，例如2000个侯选区域，那么提取出来的就是2000*4096这样的特征向量(AlexNet的第一个FC层维度为4096,故pool5的输出为4096)。用这些特征向量训练同时训练N个二分类的SVM，SVM的权重矩阵为4096xN(N为分类种类)。

训练SVM时使用的样本

样本   描述
正样本   候选区域与ground-truth(图片物体标注区域)的IoU>0.7
负样本   候选区域与ground-truth(图片物体标注区域)的IoU<0.3
这个0.7的阈值是做实验得出来的经验值
R-CNN 训练

在经过SVM分类后，会输出一堆的候选框得分(是一个2000x20的得分矩阵)，这时候我们需要用的非极大值抑制得到想要的候选框了.大概步骤如下:

对矩阵按列从大到小排序
每列的最大值向下做非极大值抑制，遍历完所有列
依据阈值，得到候选区域的类型
注意到这里，我们得到的是一组预测好类别的候选区域了。

四、修正bbox，对bbox做回归微调

我们使用一个简单的bounding-box回归用于提高定位的表现。这个bbox回归应用在SVM分类器给每个候选区域打分后，bbox回归认为候选区域和ground-truth之间是线性关系(因为在最后从SVM内确定出来的区域比较接近ground-truth,这里近似认为可以线性关系)
R-CNN 训练

R-CNN 训练

一、有监督的预训练

二、fine-tuning

三、在候选区域的特征向量上训练分类器

四、修正bbox，对bbox做回归微调

相关推荐