SPP-net中的spatial pyramid pooling

原文传送门:https://www.jianshu.com/p/884c2828cd8e

本篇主要简述SPP中的spatial pyramid pooling,力求简单明了,一看就懂。

论文地址:[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitio

spp提出的初衷是为了解决CNN对输入图片尺寸的限制。由于全连接层的存在,与之相连的最后一个卷积层的输出特征需要固定尺寸,从而要求输入图片尺寸也要固定。spp-net之前的做法是将图片裁剪或变形(crop/warp),如下图所示

SPP-net中的spatial pyramid pooling
图1 cropping or warping

crop/warp的一个问题是导致图片的信息缺失或变形,影响识别精度。对此,文章中在最后一层卷积特征图的基础上又进一步进行处理,提出了spatial pyramid pooling,如图2所示:

SPP-net中的spatial pyramid pooling
图2 crop/warp vs spp

空间金字塔池化(spatial pyramid pooling)的网络结构如下图:

SPP-net中的spatial pyramid pooling
图3 spp structure

简而言之,即是将任意尺寸的feature map分别切分成16、4、1份,再对每一份进行池化操作,将池化后的结果拼接得到固定长度的特征向量(图中的256为filter的个数),送入全连接层进行后续操作。

后来的Fast RCNN网络即借鉴了spp的思想。