ROI Pooling, ROI Align, ROI Wraper

本人是技术小白,下面是个人理解,文章为原创,转载请注明出处…

ROI Pooling

假设原图大小为800*800
使用vgg16提取特征,输出大小是原图的132\frac{1}{32},那么最后一层feature map就是25*25
假设画出来的region proposal 是650*650,在最后一层feature map上,对应的大小就是20.31*20.31,这个时候会有一步取整操作,即第一次量化,输出的大小20*20。
第二次做从20*20的feature map上,要输出7*7大小的feature map,这里做的pooling和
普通的max-pooling的不同之处在于池化窗口的内部的各自包含的特征值数量不一样。

ROI Pooling, ROI Align, ROI Wraper

ROI Align

从20*20的feature map上,要输出7*7大小的feature map,这里把20*20的feature map除以7,每个的大小是2.85*2.85,各自做pooling,比如对于每个2.85*2.85的小区域,分四份,每一份取其中心点位置,采用双线性插值法进行计算中心点像素,这样,就会得到四个点的像素值,然后取四个里面最大的值作为输出。
ROI Pooling, ROI Align, ROI Wraper

ROI Wrapper

没有第一次取整,直接去浮点数。在精细的分割里面,第一次取整不利于网络训练
ROI Pooling, ROI Align, ROI Wraper