数字公式识别的学习笔记
1 前言
我们准备使用基于attention的方法来实现数字公式识别的任务~
2 预处理
2.1 Norm——基于语法树的标准化方法
基于Norm的预处理方法是由Image-to-Markup在论文中提出的,
在论文的GitHub-repo中,使用了python和js代码来完成预处理的功能,
我当时觉得很奇怪,为什么要用js的代码,后来想到,这是因为对于LaTeX的语法检查,
可能是基于js来实现的,所以会用到js代码,
这里我们跟随原始repo的实现来进行;
因为我们的OCR项目中的标注不会出现多义的现象,所以不需要进行标准化;
这里我们可以直接follow原始repo的预处理方法;