场景文本识别模型综述

一、数据集的分析

(一) 训练数据集

大多数自然场景文字识别算法使用合成数据进行训练。两个常用的合成数据集是 MJSynth(MJ) 和 SynthText(ST) ，分别包含890万和550万张训练样本。

场景文本识别模型综述

图1 不同比例的训练数据集（MJ+ST）与算法识别性能

结论：

自然场景文字识别算法的性能随着数据量的增多而改善。
在不同训练数据集下训练的模型，彼此不具有可比性。
数据的多样性比数据量更加重要。
当真实训练数据与评测数据分布相近时，在真实数据上Fine-tuning可以改善识别算法的性能；反之效果可能适得其反。

(二) 测试数据集

自然场景文字识别领域的评测数据集主要包括2类：一类是规则文本数据集，如 IIIT5K，SVT，IC03 和 IC13；另一类是不规则文本数据集（以弯曲、透视变换为主要特点），如IC15，SVT-P 和 CUTE80 。
场景文本识别模型综述

图2 6种自然场景文字识别算法的性能比较（相同训练集）

结论：

部分自然场景文字识别评测数据集（IC03, IC13和IC15）存在样本数量差异。特别地，IC03训练集与IC13测试集存在215张重合文字样本。
测试集样本数量的差异会影响对识别算法性能的评估。

二、模型结构的分析

本文将自然场景文字识别模型分为4个模块阶段（Stage），包括：

变换处理阶段（Transformation stage）
特征提取阶段（Feature Extraction stage）
序列建模阶段（Sequence Modeling stage）
预测阶段（Prediction stage）
本文探究了不同阶段的不同设计实现对算法识别性能、速度和参数存储量的影响：

图3 自然场景文字识别模型24种实现方法的识别性能，速度和参数存储量比较

结论：最佳模型结构：TPS + ResNet + BiLSTM + Attntion Mechanism

（一）Transformation Stage

表1 Transformation Stage 2种方法（None和TPS）的准确率，速度和参数存储量分析

场景文本识别模型综述

图4 图2 加入TPS后正确识别的图片 ![](https://imgconvert.****img.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9aQ0E1VkVTMWF0QWVuSVJtU3g0MVBiWkw3WkJKT2libnIxaDF1MGppYlIwUHljV25GRHZJT0NYSk40OExkTXVXOG81aWJvSnB4U1lDN28wc0x0dEppYXhKZFEvNjQw) 图5 Transformation Stage的准确率、速度和参数存储量分析

结论：

TPS变换的引入可以改善自然场景文字识别器的识别性能。
TPS变换适用于识别不规则文本。
引入TPS变换带来的识别性能的改善，以增加少量时间和增加少量参数作为代价。

（二）Feature Extraction Stage

表2 Feature Extraction Stage 3种实现方法（VGG,RCNN和ResNet）的准确率、速度和参数存储量分析

场景文本识别模型综述

图6 加入ResNet后正确识别的图片

场景文本识别模型综述

图7 Feature Extraction Stage的准确率、速度和参数存储量分析

结论：

具有更复杂的特征提取模块的自然场景文字识别器的识别性能更好。
更复杂的特征提取模块具有更好的特征表达能力，适用于识别具有复杂字体和背景的文字样本。
对于速度而言，特征提取阶段的不同实现方法没有明显差异；对于参数存储量而言，ResNet的高识别性能以最大的参数存储空间作为代价。

（三）Sequence Modeling Stage

表4 Sequence Modeling Stage 2种实现方法（None和BiLSTM）的准确率、速度和参数存储量分析

场景文本识别模型综述

图8 加入BiLSTM后正确识别的图片

场景文本识别模型综述

图9 Sequence Modeling Stage的准确率、速度和参数存储量分析

结论：

BiLSTM的引入可以改善自然场景文字识别器的识别性能。
BiLSTM适用于识别包含无关字符的文字样本。
引入BiLSTM带来的识别性能的改善，以增加少量时间和增加少量参数作为代价。

（四）Prediction Stage

表 Prediction Stage 两种实现方法（CTC和Attn）的准确率、速度和参数存储量分析

场景文本识别模型综述

图加入Attention Mechanism后正确识别的图片

场景文本识别模型综述

图 Prediction Stage的准确率、速度和参数存储量分析 **结论：** - 对于自然场景文字识别（英文）的Prediction Stage来说，Attention Mechanism的识别性能优于CTC算法。 - 因为Attention Mechanism含有字符级隐式语言建模，所以适用于识别含有遮挡的文字样本。 - 对于速度而言，Attention Mechanism明显慢于CTC；对于参数存储量而言，二者没有明显差别。

（五）准确率和速度的权衡分析

场景文本识别模型综述

图准确率和速度的权衡分析表不同模块改变对准确率和速度的影响

场景文本识别模型综述

结论：

ResNet、BiLSTM和TPS的引入略微增加了时间（1.3ms ->10.9ms），却很好地改善了识别性能（69.5% ->82.9%）。
Attention Mechanism的引入增加了大量的时间（10.9ms-> 27.6ms），却带来了很少的识别性能改善（82.9% ->84.0%）。
权衡准确率和速度，自然场景文字识别模型最优的模块改善路径为：ResNet -> BiLSTM -> TPS -> Attention Mechanism。

（六）准确率和参数存储量的权衡分析

场景文本识别模型综述

图准确率和参数存储量的权衡分析表不同模块改变对准确率和参数存储量的影响

场景文本识别模型综述
结论：

RCNN是一个轻量级的特征提取模块，具有较好的准确率-参数存储量权衡优势；相反，引入ResNet占用了大量的参数。
权衡准确率和参数存储量，自然场景文字识别模型最优的模块改善路径为：RCNN -> Attention Mechanism -> TPS -> BiLSTM –> ResNet。

三、总结及讨论

本文是第一篇对自然场景文字识别算法性能比较的公平性进行详细分析讨论的文章。本文通过大量的实验分析，总结并提出了丰富实用的结论和工程建议，同时也引发了相关研究者对于自然场景文字识别领域更多的思考。
本文的主要贡献有：
（1）首次公开指出了自然场景文字识别算法性能比较的公平性的问题；
（2）系统全面的探讨了训练和评测数据集、模型结构（如主干网）对自然场景文字识别算法性能的影响；
（3）把自然场景文字识别整体流程划分为四个不同的模块，并总结了一个高性能的识别技术路线；
（4）分析了自然场景文字识别算法的不同阶段及不同实现对识别算法性能、速度和参数存储量的影响。

场景文本识别模型综述

一、数据集的分析

(一) 训练数据集

(二) 测试数据集

二、模型结构的分析

（一）Transformation Stage

（二）Feature Extraction Stage

（三）Sequence Modeling Stage

（四）Prediction Stage

（五）准确率和速度的权衡分析

（六）准确率和参数存储量的权衡分析

三、 总结及讨论

相关推荐

三、总结及讨论