多方向目标检测《Gliding vertex on the horizontal bounding box for multi-oriented object detection》
github链接:https://github.com/MingtaoFu/gliding_vertex
《Gliding vertex on the horizontal bounding box for
multi-oriented object detection》是华中科大白翔老师的新作,发表于2019年11月21号。该文章是用来做物体检测的,有意思的是发挥了白翔老师在OCR方面的特长。一般的物体检测都是使用一个非旋转矩形来表示一个物体,文章认为对于长条形的物体(例如斜着的中文句子,航拍的船舶等),如果物体是斜着的,那这种表示方式不能很精确的定位出物体。如果使用旋转矩形来表示物体,旋转矩形的旋转角比较难学。这篇文章是通过学习四个点在非旋转矩形上的偏移来定位出一个四边形来表示一个物体。大致的过程如下图所示:
下面来具体看一下文章是怎么做的。
一、网络结构
文章采用的就是Fasterrcnn的结构,只是预测的结果稍微不太一样,多了几个。如下图所示。
网络的输出除了有fasterrcnn有的分类结果,水平框坐标(x,y,w,h)以外,还有求旋转矩形需要的额外信息( α 1 , α 2 , α 3 , α 4 ) ,还有用来表示该矩形是否为水平还是旋转的旋转因子r。
二、标签的生成
三、损失函数
四、推断
四、实验结果
作者在含有方向任意目标的遥感图像数据集DOTA、HRSC2016,文本数据集MARA-TD500、RCTW-17,鱼眼镜头行人数据集MW-18Mar上进行了实验,并与之前的state-of-the-art方法进行了比较。DOTA数据集上的结果比较:
该文提出的方法几乎都是精度第一高或第二高。
HRSC2016上也超越了其他算法:
在多方向文本检测领域也表现的很好:
在鱼眼行人检测数据集上也大幅超越了baseline和之前的方法;
下图为在遥感图像的检测结果示例:
遥感和文本图像上的结果:
与之前方法在遥感图像上结果的比较可视化:
鱼眼行人检测比较可视化: