spp 论文笔记

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

crop & warp

spp 论文笔记

Spatial pyramid pooling

In this paper, we introduce a spatial pyramid pooling layer to remove the fixed-size constraint of the network.

Add a SPP layer on top of the last convolutional layer.

The SPP layer pools the features and generates fixed-length outputs, which are then fed into the fully-connected layers.

也就是,这是一种 信息聚集 的方法,避免来cropping 和 warping

  1. SPP 能够产生固定长度的输出
  2. SPP使用了多层次的特征
  3. SPP可以提取不同层次的特征

Deep Networks with Spatial Pyramid pooling

The Spatial Pyramid Pooling

前面的卷积层可以接受任意大小的图片,然后输出不同大小的特征。
使用SPP产生固定大小输出

Training

Detection Algorithm

  1. 使用selective search 产生2000个候选框
  2. 使用卷积神经网络提取特征
  3. 使用SPP-net,对于每个候选框,使用1*1 2*2 3*3 6*6 来pool the features
  4. 输入fc层
  5. 使用SVM分类器

训练过程中,正类指与ground-truth 有0.5以上重叠,负类指以下。在每个mini-batch中,大约25%为正类。
使用1e-4学习率,训练250K mini-batch
使用1e-5,训练50k

使用bounding box regression,来post-process the prediction windows。