2018年arxiv object detection论文阅读-持续更新

1. An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches

论文原文见arxiv.

中心思想

对于尺度变化比较大的数据集来说,Faster RCNN的RPN阶段anchor的设计比较复杂,同时anchor只能预测水平的检测框,而不能预测带旋转角度的检测框,因此本文作者放弃了在RPN阶段使用anchor,在RPN阶段直接使用一个点(同样也是用3x3的滑动窗在conv4特征图上滑动得到)回归出bounding box的四个角点坐标,backbone是FPN版本的RPN网络,在coco和icdar上都取得了比FPN版Faster RCNN更好的效果。感觉类似于east的思想。
2018年arxiv object detection论文阅读-持续更新

其它

文章也给出了一些FPN在文本检测任务中的实现细节:
1. 对于FPN的多个分支,每个GT只会分配给某一个分支,其他的分支都会将该GT忽略掉(感觉是类似于SNIP的思想);
2. 这篇文章是在 coco, icdar 上进行文本检测,作者说 FPN 没必要使用 P5 和 P6,因为文本检测中一般没有这么大的图像,所以文章将 GT 按照短边的尺寸大小分为了三种,according to their shorter side lengths, i.e., small text (4px-24px), medium text (24px – 48px) and large text (> 48px),然后分别送入不同的分支进行训练
3. 对于RPN的每一个分支,batch 仍然是256,包含128个正样本和128个负样本
4. 在RPN阶段将多个分支的的proposal融合起来的方法:原文中有三个分支,每个分支直接取score最高的2000个Proposal,然后三个分支的Proposal合起来就有6000,再进行NMS(threshold=0.7),取score最高的300个Proposal。

2. Exploring Multi-Branch and High-Level Semantic Networks for Improving Pedestrian Detection

论文原文见arxiv.

中心思想

对于多分支网络,如SSD,使用浅层特征的时候往往受到一个困扰:浅层特征语义信息太弱,另外过于的noisy,预测的效果不好,而深层特征的空间分辨率太低,因此作者提出了两种解决思路。
1. 方法一:想办法提高浅层特征的语义信息,作者将浅层特征再次进行多次卷积(只是不进行pooling,故分辨率不会降低),提高其语义信息,直到浅层特征与深层特征的深度一致时,再与对应的浅层特征融合一下,进行预测,如下图1和图2的basic MHN,对浅层特征额外增加的卷积可以和backbone上获得深层特征过程中的卷积共享,所以并不会额外的增加参数量,这一方法也可以结合FPN的思想,把多分支的特征从上到下反向融合起来再进行多段预测。
2. 方法二:想办法提高深层特征的空间分辨率,由于深层特征往往是为了获得更大的感受野而进行了多次Pooling操作,但实际上如果采用空洞卷积(dilated convolution)同样也可以获得更大的感受野,而不需要进行Pooling操作降低空间分辨率。所以作者删掉了conv(i-1)之前的Pooling层,如下图2中的(d) 所示,然后用空洞卷积取代了该Pooling层之后的卷积层,这样对于branch-large和branch-medium来说,少了一个Pooling操作,分辨率就相当于提高了一倍。再在多端进行检测,就可以获得更好的效果。
另外,这篇文章的出发点可以在Sun Jian刚发的Exfuse文章中找到(见下文)。
2018年arxiv object detection论文阅读-持续更新
2018年arxiv object detection论文阅读-持续更新

3. ExFuse: Enhancing Feature Fusion for Semantic Segmentation

论文原文见arxiv.

中心思想

和上面一篇文章的出发点比较类似,作者在图像分割任务中就发现,U-Net结构中,融合过于浅层的Feature Map对整体的效果提升很小,作者认为这主要是因为浅层特征与深层特征的空间分辨率和