ASSD: Attentive Single Shot Multibox Detector
Jingru Yi, Pengxiang Wu, Dimitris N. Metaxas
Department of Computer Science, Rutgers University, Piscataway, NJ 08854, USA
jy486,pw241,[email protected]
Abstract
提出了一种新的用于目标检测的深度神经网络。该网络称为ASSD,在特征图的空间中建立特征关系。利用全局关系信息,ASSD学习在抑制无关信息的同时突出特征图上的有用区域,从而为目标检测提供可靠的指导。与依赖复杂CNN层来细化特征映射的方法相比,ASSD设计简单,计算效率高。实验结果表明,ASSD与SSD、DSSD、FSSD、RetinaNet等先进技术具有良好的竞争优势。代码位于:https://github.com/yijingru/ASSD Pytorch。
一。介绍
近年来,利用卷积神经网络(CNN)进行目标检测得到了迅速的发展。通常,基于CNN的目标检测器可以分为两类:一级目标检测器和两级目标检测器。两级目标检测器,如R-CNN[8]、快速和快速的R-CNN[7、26]和SPPnet[9]是提案驱动的,第二级用于改进检测。然而,由于多阶段处理的解耦,这两个阶段的目标检测器在实时应用中效率很低。相比之下,YOLO[24]、YOLO-v2[25]和SSD[21]等一级目标检测器提出将目标检测建模为简单的回归问题,并将所有计算封装在一个前馈CNN中,从而在很大程度上加快了检测速度。然而,一级探测器通常比两级探测器精度低。主要原因是密集锚箱的极端前景背景类不平衡[18]。为了解决这个问题,RetinaNet[18]提出了一种焦距损失(focal loss)来训练其基于fpn base[17]的单级探测器。然而,焦损耗是参数敏感的,需要进行详尽的实验来获得最佳参数。
本文旨在改进单级探测器。从另一个角度。我们提出在特征映射上发现内在的特征关系,以使检测器聚焦于对检测任务至关重要的区域。我们的主要动力来自人类的视觉系统。当感知到一个场景时,人类首先瞥一眼场景,然后通过全局依赖性分析立即找出其中的内容。此外,当眼球聚焦于固定点时,相邻区域的分辨率降低。为了模拟这种人类视觉机制,我们设计了一个基于全局特征关系的注意单元,能够分析不同位置特征的重要性。注意单元是完全可微的。该设计生成的注意图突出有用区域,抑制无关信息。与只建立建议之间关系的方法相比[11,31],我们的方法考虑了像素级的全局特征相关性,符合人类的视觉机制。
我们选择SSD作为我们的基本一级探测器,它在简单性、速度和准确性之间提供了最佳的权衡。结合注意单元,我们称之为-结果对象探测器作为注意SSD(ASSD)。与现有的基于SSD的检测器相比,ASSD在设计上更简单,并且更有效地细化上下文语义(SEFIG)。1)。特别地,DSSD[5]依赖于复杂的特征金字塔来鼓励不同层之间的信息流。虽然获得比原始SSD更好的精度,但它相对更复杂,因此计算效率低。另一个最新的方法FSSD[16]为多尺度特征聚合构建了额外的融合模块,但仅在SSD上实现了微小的改进。与这些工作相比,我们的ASSD保留了SSD的原始结构,并且使用一个有效的注意单元来从每一层细化对象信息(参见图1d)。这种设计保留了原始SSD的优点,同时更有效地学习对象特性。我们在一些有代表性的基准数据集上展示了ASSD的优势,包括PASCAL VOC[4]和COCO[19]。实验结果验证了ASSD在精度和效率方面相对于现有技术的优越性。我们的主要贡献概括如下:
1 我们建议将像素级特征关系合并到一级检测器中。我们的设计遵循了人类的视觉机制,方便了对象特征的学习。
2 该网络既保持了SSD的简单性和高效性,又具有较高的准确性。
3 我们进行了一系列的实验来验证ASSD的优势。实验结果表明,ASSD在精度和效率上均优于现有技术。
2. Related Works
2.1. Object Detection
目标检测涉及定位和分类。从传统的手工制作的基于特征的方法(如SIFT[27]和HOG[3])到最近的基于CNN的模型,在过去的几十年里,对象检测技术有了长足的发展。最近,基于CNN的目标检测器已经取得了显著的成功,一般可以分为两类:提议驱动的两级检测器和面向回归的一级检测器。
两级目标检测器由两个分离操作组成:方案生成和盒求精。这项开创性的工作,R-CNN[8],利用选择性搜索生成区域建议,并利用学习到的CNN特征,使用特定类别的线性SVM对其进行分类。R-CNN的主要缺点是它需要对每一个方案执行前向传递,这导致了一个极其低效的模型。为了解决这个问题,SPPnet[9]建议共享所有方案的CNN计算,而Fast R-CNN[7]用完全连接层(FCs)代替支持向量机,以实现无需额外特征缓存的单阶段训练。更快的R-CNN[26]更进一步,引入了区域建议网络(RPN),其中建议计算通过共享CNN特征执行,从而大大加快了检测过程。R-FCN[2]以一种更为激进的方式用位置敏感的得分图代替FCN,并将转换方差信息编码到这些图中,从而形成一个方差不敏感的全卷积网络(FCN),用于精确的目标检测。最近的另一项工作FPN[17]采用了自顶向下的金字塔结构来重用来自特征层次的高分辨率特征映射,并取得了最新的成果。两级目标检测器在目标特征学习中是非常有效的。然而,它们在计算上通常是低效的。
与两级检测器不同的是,一级目标检测器摒弃了区域建议阶段,从而使检测更加高效。YOLO[24]建议使用单个CNN同时预测多个边界盒及其类概率。虽然速度极快,但YOLO的精确度远远低于两级模型。YOLOv2[25]没有直接预测包围盒的坐标,而是利用锚定盒方便检测,大大提高了精度。从不同的角度来看,SSD[21]在主干网上构建了一个金字塔CNN网络,并在一次前向过程中从多尺度特征图中检测出不同尺度的目标。SSD的性能优于YOLOv2。DSSD[5]以SSD为基础,类似于FPN,采用自顶向下的金字塔CNN层来提高精度,但以计算效率为代价。FSSD[16]在特征金字塔的底部插入一个融合模块,以提高SSD的精度。虽然速度仍然很快,但FSSD在精度上仅在SSD上实现了微小的改进。其他的工作,如RefineDet[32]、DSOD[28]和STOD[33],也可以通过对锚的重新加密或在不同尺度上聚合特征图来提高SSD的检测精度。CornerNet[14]采用了不同的策略,并使用基于关键点的对象检测器提高了检测精度。最近的工作,RetinaNet[18],建立了一个基于FPN的一级探测器,并提出了一个焦点损失,以便更好地训练。RetinaNet是一种有效的推理方法,但它需要付出很大的努力来调整损失函数的参数。在这项工作中,我们表明,通过显式地建模特征关系,我们的ASSD模型可以在不需要大量参数调整的情况下与RetinaNet进行良好的竞争。
2.2。视觉注意
视觉注意机制通常用于开发显著的视觉信息,并促进视觉任务,例如目标识别。文献中有许多视觉注意方法。例如,基于显著性的视觉注意模型[12]从显著性地图中选择有人参与的位置。相反,RAM[22]、AttentionNet[30]和RA-CNN[6]反复搜索和裁剪有用的区域。特别是RAM采用递归神经网络(RNN)和强化学习来发现目标。AttentionNet通过CNN分类探索通向真实物体的方向。RA-CNN还利用强化学习学习区分区域注意和基于区域的特征表示。这些方法的共同特点是只关注单实例问题。对于多目标识别,AC-CNN[15]、LPA[13]和RelationNet[11]提出了一种全局上下文指导方法。ACCNN通过堆叠的长短期内存(LSTM)单元检查全局上下文。LPA从浅层和深层之间的兼容性得分中学习注意图。RelationNet将方案之间的几何特征和外观信息关联起来,生成和转发注意特征,并专门为两级目标检测器设计。在实践中,RelationNet只取得了轻微的改进。
图2。ASSD体系结构概述。ASSD(conv1-5)的主干是ResNet101[10]。额外卷积块遵循与原始SSD相同的设置[21]。批处理规范化和ReLU用于所有层。特征图显示为“通道数×高度×宽度”。通过对conv3-5特征图的融合,增强了conv3的特征图。
图2。ASSD体系结构概述。ASSD(conv1-5)的主干是ResNet101[10]。额外卷积块遵循与原始SSD相同的设置[21]。批处理规范化和ReLU用于所有层。特征图显示为“通道数×高度×宽度”。通过对conv3-5特征图的融合,增强了conv3的特征图。
2.3。自我关注(Self-Attention)
自关注机制在自然语言处理(NLP)领域中被广泛应用于句子的长程依赖性建模。LSTMN[1]开发了一个注意记忆网络,发现了标记之间的关系,提高了LSTMN的记忆能力。结构化的自关注句子嵌入[20]在双向LSTM中引入自关注,生成嵌入的二维矩阵表示,其中每一行关注句子的不同部分。Transformer[29]仅基于注意机制在输入和输出之间绘制全局依赖关系。受Transformer的启发,在这项工作中,我们构建了特征映射本身中所有特征像素之间的远程依赖关系。本着与Transformer相似的精神,我们的ASSD能够关注不同的区域,以实现更有效的目标检测。
3. Attentive SSD(专注的SSD)
SSD[21]对多尺度特征映射进行检测,有效地处理各种对象大小。然而,浅层缺乏语义信息,因此不足以检测小目标。解决这一问题的一种方法是建立更多的CNN层,对特征映射进行进一步的细化,或者穷尽地将语义从深层注入到浅层。考虑到速度是单级目标探测器的关键优势,我们旨在以较小的额外计算成本提高SSD的精度。为此,我们构建了一个小型网络,即注意单元,并将其嵌入到SSD中,以提高检测精度。我们的ASSD网络架构如图2所示。具体来说,我们使用ResNet101(conv1-5)[10]作为主干。金字塔卷积块(conv6-9)遵循与原始SSD相同的设计[21]。利用conv3-9的特征图对不同尺度的目标进行检测。ASSD将注意力单元放在特征映射和预测模块之间,其中box回归和对象分类被执行。
3.1. Attention Unit(注意单元)
我们将序列转导问题[29]中的自我注意机制应用到我们的任务中。在序列转换中,自关注机制通过一个注意函数来提取输入序列和输出序列之间的全局依赖关系,该注意函数将一个查询和一组键值对映射到一个输出。在自我注意中,注意是由输入特征激发的,并被用来提炼这些特征在这里,我们将我们的问题重新调整为一个类似的查询问题,该问题从输入特征估计相关信息,以便构建全局像素级的特征相关性。
设为给定尺度的特征映射
,C和N分别表示特征映射中的通道数和总空间位置。首先将特征映射
线性变换为三个不同的特征空间q,k和v,即
注意得分矩阵为
,然后用
和
的矩阵乘法计算,如图2所示。注意得分矩阵的每一行通过softmax操作规范化:
其中 表示查询要素地图的第i个位置时的像素关系。我们称之为“关注地图”。注意,我们将输入特性
转换为q和k的原因是为了降低计算成本。
和
的矩阵计算计算特征相似度,并创建一个N×N注意图,揭示特征关系。注意,这样的像素关系是通过网络学习的。
接下来,我们应用和注意图
之间的矩阵乘法。通过这种方法,我们计算一个更新的特征图,作为每个位置的单个特征的加权和。最后,我们将矩阵乘法结果添加回输入特征映射
:
注意图联系了特征在所有位置的长期依赖关系,因此学习了特征图的全局上下文。它突出了特征地图的相关部分,并以精细化的信息指导检测。
3.2 语义融合
受FSSD[16]的启发,我们将layer4和layer5的上下文信息融合到layer3中,以丰富其语义。在我们的实验中,我们发现单独的融合操作并不能显著提高检测精度(见表3)。相反,它甚至降低了精度一点与更多的计算成本。这可能是因为三层具有不同的感受野和不同的能力;此外,级联和1×1 conv变换可能会抵消三层的相对重要性,并抑制原始层中的关键特征3。然而,当我们在融合手术后放置注意力单元时,会有明显的改善(见表3)。深层语义有可能帮助注意单元发现存在于原始层3中的有用信息。最后,当只使用注意单元时,我们观察到与融合和注意机制模型相比性能较差。这说明特征融合和注意是相辅相成的。语义融合过程可以表述为:
其中是s层的特征图,
。在级联操作中,通过双线性插值对第4层和第5层进行上采样,以使其大小与第3层的大小对齐。
4 实施细节
我们遵循与SSD[21]相同的锚箱生成方法。具体来说,我们使用长宽比作为特征映射conv3,8,9上的锚定盒,使用
作为特征映射conv4-7上的锚定盒。每个盒子都有一个最小尺度
和一个最大尺度
where the scale sminis regularly spaced over the feature map layers and smax is the smin of next layer.层。锚箱的标准化宽度和高度按w=s√ar和h=s/√ar计算,其中s=√sminsmax for ar=1,否则s=smin。我们使用硬负挖掘来解决正反盒类不平衡问题,如原始SSD[21]。此外,我们采用与SSD相同的数据增强和损失函数。
我们的模型用Pytorch[23]实现,并在8个NVIDIA Tesla K80 GPUs上进行了训练。在ImageNet上对ResNet101骨干网的权值进行了预训练。我们使用随机梯度下降(SGD)算法来优化ASSD权重,动量为0.9,衰减为0.0005,初始学习率为0.001。根据SSD、DSSD和FSSD的设置,对321×321和513×513两幅输入分辨率图像进行ASSD训练和评估。特别是,我们将ASSD 321的mini batch size设置为每个GPU 10个图像,ASSD512的mini batch size设置为每个GPU 8个图像。
5 实验
我们在两个常见的数据集上进行了实验:PASCAL VOC[4]和COCO[19]。PASCAL VOC数据集包含20个对象类,用于对象检测挑战。我们在PASCAL VOC 2007/2012测试集上评估ASSD。COCO数据集包含80个对象类别。在这项工作中,我们使用COCO 2017数据集,该数据集与COCO 2014具有相同的训练、验证和测试图像。因此,我们与最先进的方法进行了公平的比较。注意,RetinaNet[18]没有PASCAL VOC检测结果。因此,我们只比较COCO数据集上RetinaNet的精度和速度。
5.1. PASCAL VOC 2007
我们首先在PASCAL VOC 2007测试集上评估我们的ASSD,用最新的方法比较ASSD的速度和准确性。我们在这里使用的培训数据集是2007年trainval和2012年trainval的联合。
我们对ASSD321进行了280个阶段的训练,其中0.001的初始学习率在第200和250阶段降低了0.1。对于ASSD513,我们训练了180个阶段,在120和170个阶段的学习率衰减为0.1。如表2所示,与SSD、DSSD和FSSD相比,ASSD以相当快的速度在精度上取得了很大的提高。
5.2 PASCAL-VOC 2007的消融研究
我们进行消融研究,探讨注意单元和语义融合对检测准确性和速度的影响。本文在PASCAL VOC 2007测试集上研究了SSD513、SSD513+融合、SSD513+att、SSD513+融合+att四种模型。从表3可以看出,仅融合模块并没有显示出明显的精度改进。相反,它会带来更多的计算开销。相比之***意力单元本身可以显著提高绩效。当将注意力单元与融合模块结合时,我们观察到性能的进一步提升。我们推测,注意单元可能有能力在不同层次上分析上下文语义,并选择有用的信息来指导更好的检测。
5.3. PASCAL VOC 2012
在PASCAL VOC 2012测试集上,我们比较了ASSD和最新方法的检测精度。mAP通过在线PASCAL VOC评估进行评估
我们在表4中详细比较了每一类的平均精度(AP)。培训数据集包含2007年trainval+测试和2012年trainval。我们遵循与PASCAL VOC 2007类似的培训设置。从表4可以看出,ASSD513提高了大多数类的检测精度。原因可能是注意单元找出了像素级的特征关系,从而增强了模型区分不同类对象的能力。
图3。PASCAL VOC 2007测试集中注意力图的可视化。注意图是根据不同尺度的特征图计算出来的。对于给定的输入图像,注意图突出显示不同大小的有用区域,如热区域所示。注意图将被用作每个位置的空间特征的加权和。因此,背景等不相关区域的特征被抑制。这样,注意图有助于模型聚焦于真实目标,从而提高检测精度。
5.4. COCO
我们在COCO训练数据集(118k)和验证数据集(5k)上训练和验证ASSD。我们比较了COCO测试开发的最新方法,并通过在线评估服务器对检测性能进行了评估。我们对ASSD321进行160个阶段的训练,在第100和150个阶段的学习率衰减为0.1。ASSD513训练140个阶段,80和130个阶段后学习率下降。如表5所示,a SSD比SSD、DSSD和FSSD有了很大的改进。此外,在相似的输入分辨率下,ASSD513比RetinaNet500获得更好的精度,特别是在不同的目标区域阈值下的AP。特别是,当联合交叉口(IoU)高于0.5时,ASSD513与RetinaNet500相比有2.4%的改善。此外,从表5还可以看出,ASSD在探测小、中、大目标方面更为有效。注意,具有上述检测准确度优势,ASSD513(6.1FPS K40)仍能达到与RetinaNet500(6.8FPS K40)相当的速度。
5.5 注意力可视化
为了更好地研究注意机制,我们将不同尺度的注意图可视化。特别是,我们将注意力图投射到原始图像上。在这里,我们使用PASCAL VOC 2007测试集,它包含20个类。从图3中,我们观察到注意图突出了对象的关键位置,表明特征关系有助于模型集中于有用的区域。在浅层,注意图引导模型聚焦于小对象;在深层,注意图突出显示大尺寸的对象。此外,还可以观察到注意图对负锚定区域有抑制作用,这对快速确定负锚定区域有很大帮助。
6。结论
为了更有效地检测目标,本文提出了一种注意的单镜头多盒检测器ASSD。具体地说,ASSD利用一个快速而轻量级的注意单元来帮助发现特征依赖性,并将模型集中于有用的和相关的区域。a SSD以较小的计算开销大幅度提高了SSD的精度。此外,ASSD与其他最先进的方法竞争。特别是,它比单级检测器视网膜网络获得更好的性能,同时更易于训练,而不需要大量调整损耗参数。
References
[1] Jianpeng Cheng, Li Dong, and Mirella Lapata. Long
short-term memory-networks for machine reading. In
EMNLP, 2016.
[2] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn:
Object detection via region-based fully convolutional
networks. In NIPS, pages 379–387, 2016.
[3] Navneet Dalal and Bill Triggs. Histograms of oriented
gradients for human detection. In CVPR, volume 1,
pages 886–893. IEEE, 2005.
[4] M. Everingham, S. M. A. Eslami, L. V an Gool, C. K. I.
Williams, J. Winn, and A. Zisserman. The pascal vi-
sual object classes challenge: A retrospective. Inter-
national Journal of Computer Vision, 111(1):98–136,
Jan. 2015.
[5] Cheng-Y ang Fu, Wei Liu, Ananth Ranga, Ambrish
Tyagi, and Alexander C Berg. Dssd: Deconvolutional
single shot detector. arXiv preprint arXiv:1701.06659,
2017.
[6] Jianlong Fu, Heliang Zheng, and Tao Mei. Look closer
to see better: Recurrent attention convolutional neural
network for fine-grained image recognition. In CVPR,
volume 2, page 3, 2017.
[7] Ross Girshick. Fast r-cnn. In ICCV, December 2015.
[8] Ross Girshick, Jeff Donahue, Trevor Darrell, and Ji-
tendra Malik. Rich feature hierarchies for accurate
object detection and semantic segmentation. In CVPR,
pages 580–587, 2014.
[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian
Sun. Spatial pyramid pooling in deep convolutional
networks for visual recognition. In ECCV, pages 346–
361. Springer, 2014.
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian
Sun. Deep residual learning for image recognition. In
CVPR, pages 770–778, 2016.
[11] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and
Yichen Wei. Relation networks for object detection.
In CVPR, June 2018.
[12] Laurent Itti, Christof Koch, and Ernst Niebur. A model
of saliency-based visual attention for rapid scene anal-
ysis. IEEE TPAMI, 20(11):1254–1259, 1998.
[13] Saumya Jetley, Nicholas A Lord, Namhoon Lee, and
Philip HS Torr. Learn to pay attention. In ICLR, 2018.
[14] Hei Law and Jia Deng. Cornernet: Detecting objects
as paired keypoints. In Proceedings of the European
Conference on Computer Vision (ECCV), pages 734–
750, 2018.
[15] Jianan Li, Y unchao Wei, Xiaodan Liang, Jian Dong,
Tingfa Xu, Jiashi Feng, and Shuicheng Y an. Attentive
contexts for object detection. IEEE TMM, 19(5):944–
954, 2017.
[16] Zuoxin Li and Fuqiang Zhou. Fssd: Feature fu-
sion single shot multibox detector. arXiv preprint
arXiv:1712.00960, 2017.
[17] Tsung-Yi Lin, Piotr Dollár, Ross B Girshick, Kaiming
He, Bharath Hariharan, and Serge J Belongie. Fea-
ture pyramid networks for object detection. In CVPR,
volume 1, page 3, 2017.
[18] Tsung-Yi Lin, Priyal Goyal, Ross Girshick, Kaiming
He, and Piotr Dollár. Focal loss for dense object de-
tection. IEEE TPAMI, 2018.
[19] Tsung-Yi Lin, Michael Maire, Serge Belongie, James
Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and
C Lawrence Zitnick. Microsoft coco: Common ob-
jects in context. In European conference on computer
vision, pages 740–755. Springer, 2014.
[20] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos San-
tos, Mo Y u, Bing Xiang, Bowen Zhou, and Y oshua
Bengio. A structured self-attentive sentence embed-
ding. In ICLR, 2017.
[21] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Chris-
tian Szegedy, Scott Reed, Cheng-Y ang Fu, and
Alexander C Berg. Ssd: Single shot multibox detector.
In ECCV, pages 21–37. Springer, 2016.
[22] V olodymyr Mnih, Nicolas Heess, Alex Graves, et al.
Recurrent models of visual attention. In NIPS, pages
2204–2212, 2014.
[23] Adam Paszke, Sam Gross, Soumith Chintala, Gregory
Chanan, Edward Y ang, Zachary DeVito, Zeming Lin,
Alban Desmaison, Luca Antiga, and Adam Lerer. Au-
tomatic differentiation in pytorch. In NIPS-W, 2017.
[24] Joseph Redmon, Santosh Divvala, Ross Girshick, and
Ali Farhadi. Y ou only look once: Unified, real-time
object detection. In CVPR, pages 779–788, 2016.
[25] Joseph Redmon and Ali Farhadi. Y olo9000: better,
faster, stronger. In CVPR, pages 6517–6525, 2017.
[26] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian
Sun. Faster r-cnn: Towards real-time object detection
with region proposal networks. In NIPS, pages 91–99,
2015.
[27] Pierre Sermanet, Koray Kavukcuoglu, Soumith Chin-
tala, and Y ann LeCun. Pedestrian detection with unsu-
pervised multi-stage feature learning. In CVPR, pages
3626–3633, 2013.
[28] Zhiqiang Shen, Zhuang Liu, Jianguo Li, Y u-Gang
Jiang, Y urong Chen, and Xiangyang Xue. Dsod:
Learning deeply supervised object detectors from
scratch. In Proceedings of the IEEE International
Conference on Computer Vision, pages 1919–1927,
2017.
[29] Ashish V aswani, Noam Shazeer, Niki Parmar, Jakob
Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz
Kaiser, and Illia Polosukhin. Attention is all you need.
In NIPS, pages 5998–6008, 2017.
[30] Donggeun Y oo, Sunggyun Park, Joon-Y oung Lee, An-
thony S Paek, and In So Kweon. Attentionnet: Aggre-
gating weak directions for accurate object detection.
In CVPR, pages 2659–2667, 2015.
[31] Xingyu Zeng, Wanli Ouyang, Junjie Y an, Hongsheng
Li, Tong Xiao, Kun Wang, Y u Liu, Y ucong Zhou, Bin
Y ang, Zhe Wang, et al. Crafting gbd-net for object
detection. IEEE transactions on pattern analysis and
machine intelligence, 40(9):2109–2123, 2018.
[32] Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei,
and Stan Z Li. Single-shot refinement neural network
for object detection. In Proceedings of the IEEE Con-
ference on Computer Vision and Pattern Recognition,
pages 4203–4212, 2018.
[33] Peng Zhou, Bingbing Ni, Cong Geng, Jianguo Hu, and
Yi Xu. Scale-transferrable object detection. In Pro-ceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pages 528–537, 2018.