Handwritten Mathematical Expression Recognition Using Convolutional Neural Network(基于卷积神经网络的手写数学表达式)

Handwritten Mathematical Expression Recognition Using Convolutional Neural Network

本文仅对该论文进行翻译及分析,论文版权归原作者所有

论文译文

摘要

在栅格图像上识别数学表达式通常包括两个步骤:检测单个符号和分析其空间结构以形成相干方程。在这项工作中,我们专注于第一步,并提出一种检测方法,能够定位小而困难的手写符号。我们使用深度卷积神经网络具有鲁棒的检测性能。对于我们创建的数据集上的106个不同的数学符号,它能够获得0.65的平均精度分数。在结构分析中,我们使用了德拉古莱解析器,因为它具有较高的精度,可以正确地检测符号。

关键词数学符号检测数学表达式检测卷积神经网络


引言

数学表达式识别已经研究了半个世纪。这个问题包括可用笔画序列的在线识别和对包含数学表达式的图像进行离线识别。离线表达式识别在两者之间比较困难,因为它没有笔画数据。

这两种方法通常有两个阶段:符号识别和结构分析。在第一阶段,检测数学符号。找到它们的分类和位置,然后在第二阶段使用它们来生成一个方程字符串,通常用LaTeX格式表示。在本文中,我们将重点讨论第一阶段。

有些作品使用传统方法分割图像中的符号,如X-Y递归分割[2]、投影轮廓分割[3]或连通分量分析等。这些方法往往会丢失数学表达式的二维结构信息,从而在结构分析阶段产生误差。在[4]和[5]中,文本符号使用最大稳定的外部区域(±MSERs)来找到,这些区域具有一些用于分割的所需属性。虽然这些方法最初是针对普通文本识别提出的,但它们也可以应用于数学表达。

我们可以使用深度神经网络来完成检测符号的任务,而不是使用像上面那样的手工算法。特别是卷积神经网络在对象识别中已经非常流行。主要原因是神经网络可以产生对任何特定数据集都独一无二的高级特征。这使得它可以在较少的人工输入的情况下产生强大的性能。

我们在第一阶段使用深度卷积神经网络,以最小化识别错误,让方法在第二阶段的表现更好。特别地,我们使用[6]中提出的SSD来进行符号检测和识别。对于第二阶段,我们按照[7]中提到的过程实现解析器,以便使用检测到的符号列表,每个符号包括一个边界框和符号类,以创建与输入图像对应的LaTeX字符串。然而,在本文中,我们主要关注如何改进原来的SSD,使其在数学符号的识别上产生更好的效果。

第二节描述了我们提出的手写数学表达式识别方法和我们在SSD上的修改。第三节展示了我们实验的细节,包括数据集以及我们如何创建它们、评估指标和结果。最后,第四部分对全文进行总结。

提出的方法

图1展示了我们的ME(数学表达式)识别系统的概念图。在符号识别阶段,我们提出了四个SSD的实验版本。下面提到的每个版本都继承了前一个版本,并进行了额外的修改。修改的重点是默认框的大小和输入图像的大小。在结构分析阶段,根据Richard Zannibi等人[7]的工作,我们使用解析器利用第一阶段的输出创建词汇基线结构树(lexd - bst)。我们修改树并生成LaTeX 符串。
Handwritten Mathematical Expression Recognition Using Convolutional Neural Network(基于卷积神经网络的手写数学表达式)

符号识别

  1. 原始SSD模型:SSD最初是一个对象检测框架。在这项工作中,Wei Liu等人引入了一个模型来检测VOC数据集[8]中的对象,该数据集有20个类。

    SSD根据一组特征图预测符号,这组特征图由一个基于网络产生(这是一个改进的VGG16[9]),接着是多个额外的卷积层。每个预测都有一组相应的预定义默认框作为参考系统。预测是一个分类+4维向量。在这个向量中,类向量维数描述了所有相关类的概率。另外的4个维度指定检测到的符号包围框的位置和大小:cx ,cy,w,h。

    生成的特征图尺寸不同,可以帮助SSD检测不同尺度的符号。为了预测,输入图像将被输入到卷积层序列中。在某些层中,将应用一个分类层来产生n+1的预测(其中n是高宽比的数量)
    Handwritten Mathematical Expression Recognition Using Convolutional Neural Network(基于卷积神经网络的手写数学表达式)

  2. SSD修改建议:在[6]中提出的原有SSD300的基础上,调整模型的配置,新增3个版本。

    版本Ι — 原始版本:这个版本是SSD300。
    (1)分类数量:106个符号和背景
    (2)输入图像大小:300 x 300
    (3)网络:VGG16
    (4)默认框大小:smin=0.2,smax=0.9
    sk = smin + (smax - smin) * (k - 1) / (m - 1)
    其中k是用于预测的特征图的数量

    在实验中,这个版本不能检测小的符号(大约20x20像素或更小)。这是因为在匹配过程中,ground truth 边界框由于尺寸差异较大,无法与任何默认框进行匹配。没有一对能满足Jaccard重叠条件[10],因此符号被忽略,被视为“背景”,这使得SSD无法学习小符号。

    版本II - SSD调整默认盒的大小
    这个版本继承了版本I,但是默认框的大小不同。在对采集到的图像进行检测后,我们发现图像中存在许多纵横比不平衡的小符号。在SSD训练过程中无法匹配这些符号。因此,我们使用了一个新的范围参数smin=0.05和smax=0.5。这一更改将默认框的大小减半。虽然边界框的数量保持不变,但是网格结构被破坏了,因为边界框是两个小的,并且它们之间有间隙。因此,版本II可以更好地检测小符号,但整体检测能力有所下降。
    Handwritten Mathematical Expression Recognition Using Convolutional Neural Network(基于卷积神经网络的手写数学表达式)
    版本III - SSD上更大的输入图像:这个版本继承了版本II,并改变了输入图像的大小从300 x 300到500 x 500。这反过来又增加了后续层中特征图的大小。随着特征图变大,预测框和默认框的数量也会增加。当出现更多的默认框时,网格结构会恢复,并且这个版本比之前的两个版本产生更好的预测。
    版本IV -卷积层较多的SSD:该版本继承了版本III,修改了现有的一个卷积层,在辅助结构中增加了两个新的卷积层,如图4所示。这增加了用于预测的特征图数量,提高了整体检测能力。

    Handwritten Mathematical Expression Recognition Using Convolutional Neural Network(基于卷积神经网络的手写数学表达式)

结构分析

在生成图像中符号框的边界后,使用DRACULAE[7]解析器通过基线结构树(baseline structure tree, BST)和词汇基线结构树(Lexed-BST)生成LaTeX字符串。在原论文中,解析器有两种传递:布局传递、词法传递和表达式分析。但是,我们只应用前两次传递,因为我们的目标是生成LaTeX字符串,它从Lexed-BST比从操作树更容易创建。

  1. 布局传递:布局传递从包含位置和大小信息的边框列表中分析ME的结构。这一步骤的主要目标是创建一个BST,它是一个树结构,其中每个节点包含一个基线和表示它们在ME中的位置的notes之间的关系。为了创建BST,此布局传递执行以下步骤:

    (1)指定基线的开始符号:这个符号必须是最左边的,不能被任何其他符号所支配。
    (2)指定基线中的所有符号:在水平方向上与开始符号相邻的所有符号将保存在同一个节点中,其他的将作为适当节点的子节点放置。
    (3)重新定位节点:在此步骤中,节点的左上子节点将被重新定位到其上一个节点的右上节点。
    (4)处理子节点:经过前三步,子节点可以在一个节点中包含同一区域内不同基线的所有符号。因此,必须递归地处理这些子节点,以形成完整的BST。
    Handwritten Mathematical Expression Recognition Using Convolutional Neural Network(基于卷积神经网络的手写数学表达式)

  2. 词法传递:这个传递的主要目标是从布局传递中生成的BST创建Lexed-BST。

    Lexed-BST是一种基于BST的树形结构;但是,BST中相邻的符号被组合成复合符号(等于号、小数、函数名等)或结构符号(分数、极限、和等)。其形成是基于空间位置和一些预定义的规则。在这项工作中,我们不使用复合符号,因为我们的目标是生成一个LaTeX 字符串,而不是计算任何实际的数学表达式。我们只需要决定哪些符号与结构符号相关,如积分或总和,以正确生成LaTeX 序列。

结论

在本文中,我们提出了一个基于序列方法的ME识别框架。在第一阶段——符号识别中,我们采用SSD,并对输入图像的大小、默认框的大小和SSD的架构进行了三次更改。这有助于我们的系统比原来的SSD更好地检测和识别小物体。在第二阶段——结构分析中,我们基于Richard Zanibbi等[7]提出的算法实现了一个解析器。解析器使用第一阶段的输出来构建经过Lexed的BST,然后使用BST生成相应的LaTeX字符串,从而帮助链接ME识别的两个阶段。此外,我们提供了一个包含手写数学符号和表情图像的数据库,用于训练SSD和评估系统。根据4个版本的映射,我们得出结论,前两个因素——调整输入图像的大小和调整默认框的大小——在提高性能方面起着主要作用。

个人理解