ICCV 2019 | 旷视研究院提出文字检测新方法:像素聚合网络PAN
本文介绍ICCV 2019 旷视研究院提出任意形状文字检测模型:像素聚合网络 PAN,它考虑了任意文字识别过程中速度与精度的权衡,在大幅提升识别性能的同时也显著降低了计算量,成为当前该领域最佳方法。
论文名称:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
论文地址:https://arxiv.org/abs/1908.05900
目录
导语
简介
方法
整体架构
特征金字塔增强模块
特征融合模块
像素聚合
损失函数
实验
与当前最优模型的比较
结果可视化与速度分析
结论
参考文献
往期解读
导语
场景文字检测技术是场景文字阅读系统中的一个重要步骤。虽然这项技术近年来取得了快速发展,但是它依然由于面临两项挑战,而无法很好的在真实世界中展开应用。
挑战 1:如何在速度与精度之间取得平衡?
挑战 2:如何对任意形状文字实例进行建模?
虽然最近可以看到一些任意形状文字检测的新研究,但是几乎没有方法考虑了模型运行的速度问题,以致于无法很好投入实践应用。在本文中,旷视研究院团队提出一个高效且精确的任意形状文字检测模型:像素聚合网络(Pixel Aggregation Network,PAN),多个标准 Benchmark 均验证了该模型的领先性。值得一提的是,该模型在 CTW 1500 数据集上取得了 FPS 84.2,F-measrure 79.9% 的成绩。
简介
场景文字检测是计算机视觉中的一项重要的基础技术,它是文字相关应用中的关键步骤,如文字识别、文字检索、车牌识别、视觉文字问答等。随着社区近年来对场景文字检测越来越多的关注,任意场景文字检测(作为文字检测中最重要的任务)所受的关注度也逐渐增高。
然而,虽然人们提出了很多检测弯曲文字的方法,但是这些方法的推理速度大多都囿于模型本身或者后处理步骤过于复杂,而变得很慢。另外,对于那些已提出的高效检测模型而言,它们大多都使用的四边形文字检测方法,然而当遇到曲线文字的时候,检测就会出错。
因此综上可知,“如何设计一个即高效又精准的任意形状文字检测模型?”这个问题依然没有答案。
为此,旷视研究院提出了一个任意形状文字检测模型,称之为像素聚合网络(PAN)。它的简单流程如图 2,可以发现,包含了两个步骤(1)用分割网络预测文字区域、核参数以及相似向量;(2)从预测的核中重建完整的文字实例。
图 2:PAN 总体流程图
为了保证网络的高效率,就需要降低这两步处理的耗时,因此,模型用于分割的 backbone 一定要是轻量级的。本文使用将 ResNet-18 作为 PAN 的默认 backbone,并提出了低计算量的 head 以解决因为使用 ResNet-18 而导致的特征提取能力较弱,进而带来的特征感受野较小且表征能力不足的缺点。
此外,为了精准地重建完整的文字实例,研究员提出了一个可学习的后处理方法——像素聚合法,它能够通过预测出的相似向量来引导文字像素去纠正核参数。
方法
整体架构
如图前所述,PAN 是一个基于分割的任意形状文字检测模,为了提高效率,研究员在 ResNet-18 基础上提出了一个可高效修正特征的分割 head。它由两个关键模块组成:特征金字塔增强模块(Feature Pyramid Enhancement Module,FPEM)、特征融合模块(Feature Fusion Module,FFM)。
如图 3 (d)、(e)与图 4 可见,FPEM 呈级联结构且计算量小,可以连接在 backbone 后面让不同尺寸的特征更深、更具表征能力。在 FPEM 模块后面,研究人员使用了特征融合模块(FFM)来将不同深度的 FPEM 所产生的特征融合为最终用于分割任务的特征。
图 3:PAN 的总体架构
PAN 通过预测文字所处区域(图 3 (g))来描述文字的完整形状;通过预测出核参数(图 3 (h))来区分不同的文字实例。另外网络也会预测每个文字像素的相似向量(图3 (i)),以保证像素的相似向量与来自同样文本的核之间的距离足够小。
特征金字塔增强模块
图 4 :FPEM 的细节
如图 4,FPEM是一个 U形模组,由两个阶段组成,up-scale 增强、down-scale 增强。up-scale 增强作用于输入的特征金字塔,它以步长 32,16,8,4 像素在特征图上迭代增强。在 down-scale 阶段,输入的是由 up-scale 增强生成的特征金字塔,增强的步长从 4 到 32,同时,down-scale 增强输出的的特征金字塔就是最终 FPEM 的输出。
类似于 FPN,FPEM 能够通过融合低级与高级信息来增强不同 scale 的特征。此外,又与 FPN 不同的是,FPEM 还有两个优势,首先 FPEM 是一个级联结构的模块。在级联数为 n_c 的情况下,不同 scale 的特征图能够更好地融合在一起,并且特征的感受野会增大;第二,FPEM 的计算消耗很低,这是因为它由分离的、仅需要最小计算量的卷积构成。FPEM 需要的计算量大约是 FPN 的 1/5。
特征融合模块
特征融合模组用于融合不同深度的特征金字塔,这是因为低级、高级语义信息对于语义分割来说都很重要。研究人员提出了如图 5 中的特征图融合方法。他们首先通过逐元素相加结合了相应 scale 的特征图,然后对特征图进行降采样,连接成最终只有 4*128 通道的特征图。
图 5:FFM 的细节
像素聚合
文字区域虽然保留了文字完整的形状,但是在其中也经常会出现重叠在一起的文本(见图 3 (g))。另外,虽然可以用核来很好地区分文字(见图 3 (h)),但是这些核并不能涵盖所有的文字。为了重建完整的文字实例,研究员需要将文本区域中的像素融合到核中,因此他们提出了“像素聚合算法(Pixel Aggregation)”来将文字像素引导到正确的核中去。
在像素聚合算法的设计中,研究人员借用了聚类的思想来从核中重建完整的文字实例。如果将文字实例视为聚得的类群,那么文本实例的核就是类群的中心,而文本像素是被聚类样本。自然地,为了将文本像素聚合到对应的核,文本像素与和它相同文本的核之间的距离就要足够小。
损失函数
损失函数如下:
其中 L_tex 是文本区域的损失,L_ker 是核的损失。α 和 β 被用来平衡 L_tex、L_ker、L_agg 和 L_dis 的重要程度。
考虑到文字和非文字像素非常不平衡,研究员采用了 dice loss 损失来监督文本区域的分割结果 P_tex 与核的 P_ker,因此 L_tex 和 L_ker 分别如下:
其中 P_tex(i) 和 G_tex(i) 分别指分割结果的第 i 个结果以及文字区域的 ground truth;类似的 P_ker(i) 和 G_ker(i) 分别指预测结果的第 i 个像素值以及核的 ground truth。
实验
与当前最优模型的比较
弯曲文字检测:研究人员在 CTW 1500 与 Total-Text 两个数据集上对比了本文方法 PAN 与当前已有的最好模型的性能。表 4、表 5 分别展示了 PAN 模型在 320、512、640 三个不同短步长(short stride)输入图像条件下的结果。
表 4:在 CTW 1500 上的对比结果
表 5:在 Total-Text 上的对比结果
可以发现,本文提出的 PAN 模型已显著优势超越了同类方法,实现了在任意形状文字检测问题上的最佳性能。图 6 (e)、(f) 展示了 PAN 在一些挑战赛中的结果,很明显, PAN 能够分辨出非常复杂的文字。
图 6:PAN 预测过程的可视化
结果可视化与速度分析
结果可视化:图 6 (a-d) 可视化了 PAN的预测过程,(e-h) 是模型在真实场景下的性能展示。
速度分析:关于模型的速度,研究员在 CTW-1500 数据集上专门针对 PAN 的不同阶段(backbone、head、post)做了分析,如表 8 所示。在实际应用中,一个降低时耗的显然的方法是用一个基本的 producer-consumer 模型来并行处理网络与后处理过程,相比于原始版本,可以节省大约 4/5 的时间。
结论
在本文中,旷视研究院提出了一个用于实时检测任意形状文字的的高效框架 PAN。通过引入一个由特征金字塔模块与特征融合模块组成的轻量级分割 head,它在提升特征提取能力的同时可以降低计算量;此外,研究人员还提出了像素聚合算法,来预测文字的核与周围像素间的相似向量。以上两个优势使得 PAN 成为了一个高效且精准的任意形状文字检测器。在 Total-Text 和 CTW1500 数据集上实验显示,与当前已提出的其它最先进模型相比,PAN 在速度与精度上都更加优秀。
参考文献
Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587, 2017.
Chee Kheng Ch’ng and Chee Seng Chan. Total-text: A comprehensive dataset for scene text detection and recognition. In Proc. Int. Conf. Document Analysis Recogn., 2017.
Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai. Pixellink: Detecting scene text via instance segmentation. In Proc. AAAI Conf. Artificial Intell., 2018.
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In Proc. IEEE Conf. Comp. Vis. Patt. Recogn., 2009.
Deng-Ping Fan, Ming-Ming Cheng, Jiang-Jiang Liu, Shang-Hua Gao, Qibin Hou, and Ali Borji. Salient objects in clutter: Bringing salient object detection to the foreground. In Proc. Eur. Conf. Comp. Vis., 2018.
OCR交流群
关注最新最前沿的文本检测、识别、校正、预处理等技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)
(请务必注明:OCR)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。
(不会时时在线,如果没能及时通过验证还请见谅)
长按关注我爱计算机视觉