spp 论文笔记
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
crop & warp
Spatial pyramid pooling
In this paper, we introduce a spatial pyramid pooling layer to remove the fixed-size constraint of the network.
Add a SPP layer on top of the last convolutional layer.
The SPP layer pools the features and generates fixed-length outputs, which are then fed into the fully-connected layers.
也就是,这是一种 信息聚集 的方法,避免来cropping 和 warping
- SPP 能够产生固定长度的输出
- SPP使用了多层次的特征
- SPP可以提取不同层次的特征
Deep Networks with Spatial Pyramid pooling
The Spatial Pyramid Pooling
前面的卷积层可以接受任意大小的图片,然后输出不同大小的特征。
使用SPP产生固定大小输出
Training
Detection Algorithm
- 使用selective search 产生2000个候选框
- 使用卷积神经网络提取特征
- 使用SPP-net,对于每个候选框,使用1*1 2*2 3*3 6*6 来pool the features
- 输入fc层
- 使用SVM分类器
训练过程中,正类指与ground-truth 有0.5以上重叠,负类指以下。在每个mini-batch中,大约25%为正类。
使用1e-4学习率,训练250K mini-batch
使用1e-5,训练50k
使用bounding box regression,来post-process the prediction windows。