数字公式识别的学习笔记

1 前言

我们准备使用基于attention的方法来实现数字公式识别的任务~

2 预处理

2.1 Norm——基于语法树的标准化方法

基于Norm的预处理方法是由Image-to-Markup在论文中提出的,

数字公式识别的学习笔记

在论文的GitHub-repo中,使用了python和js代码来完成预处理的功能,

数字公式识别的学习笔记

我当时觉得很奇怪,为什么要用js的代码,后来想到,这是因为对于LaTeX的语法检查,

可能是基于js来实现的,所以会用到js代码,

这里我们跟随原始repo的实现来进行;

因为我们的OCR项目中的标注不会出现多义的现象,所以不需要进行标准化;

这里我们可以直接follow原始repo的预处理方法;