一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度

在过去的二十年中，无论是工业界还是学术界，SCENE文本识别近年一直是一个热门领域。

有各种应用程序场景，例如文本，标识牌上的自动驾驶，身份证扫描银行，提取关键信息，在机器人过程自动化（RPA）中。

但是构建高质量的场景文本识别系统是一项比较难的任务，通常是由由于意外的模糊，强曝光，空间和透视失真以及其它复杂因素造成。

那今天与大家分享了一种新的场景文本识别方法，该方法发明了一种Multi-Aspect全局上下文建模方法，该方法有效地提高了文本识别的准确性，并在多个数据集上实现了最佳准确性，这是用于文本识别的最有价值的论文。

该论文来自国内的平安视觉研发的一个团队。

我们先来看看常用需要识别的文字和图案：

一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度

受到GCNet中全球环境的有效性以及NLP中变压器的巨大成功的启发，作者提出了一种多方面的非本地网络用于不规则场景TExt识别（MASTER）旨在实现高效，准确的场景文本识别常规和不规则文本。

论文的主要贡献如下：

整理可以理解为MASTER包含两个核心模块：

（1）一种基于Multi-Aspect全局上下文关注机制的编码器；

（2）基于变压器的解码器。

其全局上下文建模模块如下：

一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度

它主要分为两部分：上下文建模和变换，并且原始特征图与变换输出合并。

本文对场景文本识别的注意力建模，发现如果使用多种注意力功能，可以获得更好的结果：

其核心模块如下：

一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度

其含有h个Context Modeling这个就是它的创新之处。

在解码器改进主要有：

它的架构图如下图所示：

一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度

实验结果

作者在常见评价数据集上与最新方法进行了比较：

一种基于Multi-Aspect全局场景建模可大幅提高文本识别精度

很明显其中几个个取得了当前最高的精度，效果还是非常不错。

可以看出，MASTER已在不区分大小写的轨道上获得了当前的第一名，并大大超过了第二名，在区分大小写的轨道上的准确性指数中获得了良好的第四分。

作者得出的结论是，MASTER方法具有以下优点：

（1）该模型可以更好地学习输入和输出之间的对齐关系，可以学习编码器内部特征与特征之间的相关性，并且可以了解目标与解码器内部目标之间的相关性，从而减轻了问题。注意混乱问题；

（2）该模型在公共基准数据集（尤其是不规则文本数据集）上达到了SOTA级别，表明它对图像的空间变形不敏感；

（3）在训练和预测阶段使用并行计算，效率更高。

相关论文源码下载地址：关注“图像算法”微信公众号