【论文解读】【论文翻译】ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

作者:Yuliang Liu‡;华南理工大学;阿特来德大学;华为诺亚方舟实验室

背景知识:

 

 

论文翻译:

Abstract

        场景文本检测和识别已经吸引了大量的研究者关注。现有的方法可以大致分为两类:基于字符的方法和基于分割的方法。这些方法或者需要花费字符标注的精力或者需要维护一个复杂的pipeline,这对于实时应用是十分不利的。因此我们提出了自适应贝塞尔曲线网络ABC-Net。我们的贡献包括以下三个部分:

1)首先,我们通过参数化的贝塞尔曲线拟合任意形状的文本区域;

2)我们设计了一个新的BezierAlign层来准确提取任意形状文本实例的特征,这有效的提升了文本识别的准确性;

3)相比较基于候选区域类的检测算法,我们的贝塞尔曲线检测算法具有更高的性能

         实验基于任意形状的开源数据集,Total-Text和CTW1500,ABCNet实现了sota的准确率,同时提升了速度。特别的,在Total-Text上,我们的实时版本相比较之前的sota方法快了10倍,同时能够具有相同的识别准确性。代码已经开源到https://github.com/aim-uofa/AdelaiDet

 

1. Introduction

        场景文本检测和识别近年大热,应用众多,并且取得了很大的进展,如[10, 41, 27, 35, 26, 42]等工作。由于自然场景的文本的多样化,如长宽比,字体样式,透视扭曲,形状等,对他的检测和识仍然是一项挑战。即使深度学习的发展极大的提高了自然场景端到端识别的准确性,现有的方法在实际应用上仍然存在一些问题,特别是识别的效率问题。

        近来,很多端到端方法[30, 36, 33, 23,43, 20]已经有效提升了任意形状文本的性能。然而,这些方法或者基于分割,需要维护一个复杂的pipeline,或者需要大量的昂贵的字符级别的标注。而且,几乎所有的这些方法都运行很慢,限制了很多实时应用。因此,我们的目标是提出一种简单高效的端到端文本识别方法,能够定位任意形状或扭曲的自然场景文本[5, 26],并且在获取快速推理的前提下达到sota的准确性。

        为了实现这个目标,我们提出了一个自适应贝塞尔曲线网络(ABC-Net),一个端到端可训练的框架,能够完成任意形状的文本定位识别。ABCNet通过自适应贝塞尔曲线高效的完成任意形状的文本检测,并且相比较标准的矩形bbox检测,开销可以忽略。而且,我们设计了一个全新的特征对齐层——BezierAlign,为了精确计算弯曲形状的文本实例的卷积特征,以此提高文本识别的准确性,且不会带来额外计算开销。我们第一次用参数化的贝塞尔曲线表示有向弯曲文本,并通过实验结果证实了我们方法的有效性。我们的识别结果展示在图1中。

【论文解读】【论文翻译】ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

        先前的方法