一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度
在过去的二十年中,无论是工业界还是学术界,SCENE文本识别近年一直是一个热门领域。
有各种应用程序场景,例如文本,标识牌上的自动驾驶,身份证扫描银行,提取关键信息,在机器人过程自动化(RPA)中。
但是构建高质量的场景文本识别系统是一项比较难的任务,通常是由由于意外的模糊,强曝光,空间和透视失真以及其它复杂因素造成。
那今天与大家分享了一种新的场景文本识别方法,该方法发明了一种Multi-Aspect全局上下文建模方法,该方法有效地提高了文本识别的准确性,并在多个数据集上实现了最佳准确性, 这是用于文本识别的最有价值的论文。
该论文来自国内的平安视觉研发的一个团队。
我们先来看看常用需要识别的文字和图案:
受到GCNet中全球环境的有效性以及NLP中变压器的巨大成功的启发,作者提出了一种多方面的非本地网络用于不规则场景TExt识别(MASTER)旨在实现高效,准确的场景文本识别常规和不规则文本。
论文的主要贡献如下:
-
我们提出了一种新颖的多方面非局部块并将其融合到常规的CNN主干中
这使特征提取器可以全局建模上下文。
-
拟议的多方面非局部块可以学习空间2D注意的不同方面,可以看作是多头自我关注模块。
-
不同类型的注意力集中在空间特征相关性的不同方面,这些方面是另一种形式的语法依赖类型。
-
在解码器部分,使用了Transformer模块预测输出序列,它利用2Dattention融合了本地和全局上下文以及潜在语言模型可以更好地预测视觉单词。
-
除了效率高外,我们的方法还可以实现常规水平上的最新性能和不规则的场景文字基准。
整理可以理解为MASTER包含两个核心模块:
(1)一种基于Multi-Aspect全局上下文关注机制的编码器;
(2)基于变压器的解码器。
其全局上下文建模模块如下:
它主要分为两部分:上下文建模和变换,并且原始特征图与变换输出合并。
本文对场景文本识别的注意力建模,发现如果使用多种注意力功能,可以获得更好的结果:
其核心模块如下:
其含有h个Context Modeling这个就是它的创新之处。
在解码器改进主要有:
-
Scaled Multi-Head Dot-Product Attention
-
Masked Multi-Head Attention
-
Position-wise Feed-Forward Networn
-
Loss Function
它的架构图如下图所示:
实验结果
作者在常见评价数据集上与最新方法进行了比较:
很明显其中几个 个取得了当前最高的精度,效果还是非常不错。
可以看出,MASTER已在不区分大小写的轨道上获得了当前的第一名,并大大超过了第二名,在区分大小写的轨道上的准确性指数中获得了良好的第四分。
作者得出的结论是,MASTER方法具有以下优点:
(1)该模型可以更好地学习输入和输出之间的对齐关系,可以学习编码器内部特征与特征之间的相关性,并且可以了解目标与解码器内部目标之间的相关性,从而减轻了问题。注意混乱问题;
(2)该模型在公共基准数据集(尤其是不规则文本数据集)上达到了SOTA级别,表明它对图像的空间变形不敏感;
(3)在训练和预测阶段使用并行计算,效率更高。
相关论文源码下载地址:关注“图像算法”微信公众号