红外街道图像的目标检测:多尺度 对象级数据增强
红外街道图像的目标识别:多尺度+对象级数据增强
Multiscale Object Detection in Infrared Streetscape Images Based on Deep Learning and Instance Level Data Augmentation
文章目录
一、背景
1.红外目标检测与本文的目标
红外传感器技术一直在发展,基于红外图像的人脸识别和行人检测也在越来越引人注意。但是红外目标检测面临一些考验:目前对于红外图像的检测方法局限在单分类检测,对于包含许多类以及许多尺度的红外街道图像的研究很少;红外图像的分辨率和对比度很低,高质量红外图像数据的稀少也阻碍了对应目标检测的发展。
作者想要做到的是:
1)提高基于红外图像的神经网络对多尺度目标的检测能力
2)高质量图像少,存在类别不平衡问题,所以设计一种数据增强的方法,更好地利用数据
2.Faster R-CNN对多尺度不友好
Faster R-CNN的目标检测能力比较优秀,已经研究人员将Faster R-CNN应用到红外图像进行研究了,而且准确率要优于传统的方法。但是Faster R-CNN对多尺度检测的关注很少,它的一些设计是不利于多尺度检测的:
1)RPN只使用最后一层特征图提取区域建议,对于多尺度检测是不利的,我们虽然可以通过增加anchor的数量提高小目标的检测能力,但是这同时会大幅降低效率。
2)Faster R-CNN值使用最后的感受野最大的特征图进行分类,难以捕获小的目标。
已经有一些对于Faster R-CNN的改进了:
1)将低级特征与高级特征组合,使网络对小目标更敏感,但扩大了特征的维度又会引入计算损失的增加。(SSD系列,FPN, RON, Mask R-CNN)
2)为了平衡性能与计算量,多尺度ROI池化层出现了,将不同级别的输出组合起来,由此网络可以同时获得多尺度的特征。
3)改变特征图的感受野。(DetNet, RFBNet在特征图中增加了空洞卷积)
3.缺少高质量数据
通常数据增强的方法有翻转、改变对比度、剪裁等等,它们的缺点是随机对每一张完整的图片都进行操作,没有考虑到类不均衡问题,并且它们没有考虑到目标的空间关系。也就是说作者想做的是以图像中的目标为单位进行数据增强,这就是基于对象的目标增强。
二、技术点
1.改进Faster R-CNN提高多尺度能力
1)双层RPN金字塔 Double-Layer RPN Pyramid
将conv3,4,5
层的特征图统一尺度进行拼接,得到特征图1,RPN1在这个特征图上提取候选框,对特征图1使用dilated rate=2的空洞卷积,得到特征图2,使用RPN2在之上提取候选框。所有的候选框通过NMS减少数量,最终输出到池化层中。
2)Multi-Scale Pooling with Inception4 Module and PSalign
2.对象级数据增强
数据源:FILR数据集(包含人、车、自行车、狗、其他交通工具)
实验选取:汽车46692,人28151,自行车4457
目的:弥补自行车过少汽车过多的不平均问题,对于大目标进行数据增强的操作(小目标进行变换会带来扭曲)
在包含自行车或人的图像中,将2/3的汽车删去,然后判断是否与其他目标重叠,不重叠的直接进行缩放旋转等操作,如果重叠过大会删除一个目标,再创建一张图片放置这个删除的目标。