2018年arxiv object detection论文阅读-持续更新

1. An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches

论文原文见arxiv.

中心思想

对于尺度变化比较大的数据集来说，Faster RCNN的RPN阶段anchor的设计比较复杂，同时anchor只能预测水平的检测框，而不能预测带旋转角度的检测框，因此本文作者放弃了在RPN阶段使用anchor，在RPN阶段直接使用一个点(同样也是用3x3的滑动窗在conv4特征图上滑动得到)回归出bounding box的四个角点坐标，backbone是FPN版本的RPN网络，在coco和icdar上都取得了比FPN版Faster RCNN更好的效果。感觉类似于east的思想。
2018年arxiv object detection论文阅读-持续更新

其它

文章也给出了一些FPN在文本检测任务中的实现细节：
1. 对于FPN的多个分支，每个GT只会分配给某一个分支，其他的分支都会将该GT忽略掉（感觉是类似于SNIP的思想）；
2. 这篇文章是在 coco, icdar 上进行文本检测，作者说 FPN 没必要使用 P5 和 P6，因为文本检测中一般没有这么大的图像，所以文章将 GT 按照短边的尺寸大小分为了三种，according to their shorter side lengths, i.e., small text (4px-24px), medium text (24px – 48px) and large text (> 48px)，然后分别送入不同的分支进行训练
3. 对于RPN的每一个分支，batch 仍然是256,包含128个正样本和128个负样本
4. 在RPN阶段将多个分支的的proposal融合起来的方法：原文中有三个分支，每个分支直接取score最高的2000个Proposal，然后三个分支的Proposal合起来就有6000，再进行NMS（threshold=0.7）,取score最高的300个Proposal。

2. Exploring Multi-Branch and High-Level Semantic Networks for Improving Pedestrian Detection

论文原文见arxiv.

中心思想

对于多分支网络，如SSD，使用浅层特征的时候往往受到一个困扰：浅层特征语义信息太弱，另外过于的noisy，预测的效果不好，而深层特征的空间分辨率太低，因此作者提出了两种解决思路。
1. 方法一：想办法提高浅层特征的语义信息，作者将浅层特征再次进行多次卷积（只是不进行pooling,故分辨率不会降低），提高其语义信息，直到浅层特征与深层特征的深度一致时，再与对应的浅层特征融合一下，进行预测，如下图1和图2的basic MHN，对浅层特征额外增加的卷积可以和backbone上获得深层特征过程中的卷积共享，所以并不会额外的增加参数量，这一方法也可以结合FPN的思想，把多分支的特征从上到下反向融合起来再进行多段预测。
2. 方法二：想办法提高深层特征的空间分辨率，由于深层特征往往是为了获得更大的感受野而进行了多次Pooling操作，但实际上如果采用空洞卷积（dilated convolution）同样也可以获得更大的感受野，而不需要进行Pooling操作降低空间分辨率。所以作者删掉了conv(i-1)之前的Pooling层，如下图2中的(d) 所示，然后用空洞卷积取代了该Pooling层之后的卷积层，这样对于branch-large和branch-medium来说，少了一个Pooling操作，分辨率就相当于提高了一倍。再在多端进行检测，就可以获得更好的效果。
另外，这篇文章的出发点可以在Sun Jian刚发的Exfuse文章中找到（见下文）。
2018年arxiv object detection论文阅读-持续更新

3. ExFuse: Enhancing Feature Fusion for Semantic Segmentation

论文原文见arxiv.

中心思想

和上面一篇文章的出发点比较类似，作者在图像分割任务中就发现，U-Net结构中，融合过于浅层的Feature Map对整体的效果提升很小，作者认为这主要是因为浅层特征与深层特征的空间分辨率和

2018年arxiv object detection论文阅读-持续更新

1. An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches

中心思想

其它

2. Exploring Multi-Branch and High-Level Semantic Networks for Improving Pedestrian Detection

中心思想

3. ExFuse: Enhancing Feature Fusion for Semantic Segmentation

中心思想

相关推荐