TRIE_End-to-End Text Reading and Information Extraction for Document Understand 稿
富文本(VRD)
富文本因为结合了视觉和文本两种模态而得名。它不但含有纯文本信息,还含有文档的结构,版式,文本颜色,字体,大小等等特征。Layout在这里指的是文本之间的相对位置和text type。text type分为两种,一种是structed,另一种则是semi-structed。structed指的是类别是固定的(在图片中必定出现这些内容),semi-structed 指的是有不固定类别,有些类别可以在也可以没有。
结构
富文本理解的方法可以是双阶段的,也可以是端到端的。双阶段的第一阶段就是获取文本的位置和转写过程。最早直接使用提取出来的文字内容按照顺序组合成句子输入关键信息提取模块,之后的话会加入一些辅助信息,比如说文本的位置信息,文本块的视觉特征。端到端的话,就是最后关键信息模块的梯度会反传到文本识别和文本检测模块。
IE
最早IE使用的是模板匹配,之后使用的是规则匹配的方式。之后开始引入深度学习的方法。最初始也是单单使用纯文本的信息,之后开始加入位置信息。有的是使用GCN的方式来学习文本之间的关联性,有的则是使用BERT的self attention来学习文本之间的联系。并且使用更多的文本内容来预训练添加了位置信息的embedding。
TRIE的整体结构
首先通过resnet+fpn获得用来共享的特征。特征通过检测网络获得文本位置的坐标,根据这个坐标使用roi align获得。之后就是attention based的识别网络,识别出文本内容。视觉特征复用之前roi align出来的特征,attention base识别网络的hidden state作为文本特征。文本特征通过cnn网络合成为一个词向量(一整块文本块所有的字符合成一个词向量)。视觉特征在h*W维度上相加,按一定比例和内容特征结合。之后这个特征和之前的hidden state concat起来送入bilstm之后,然后做softmax来分类BIO。
convnet
之前做字符cnn的方式,首先将字符改为index,然后映射为embedding。而这里使用的直接是hidden state的embedding,因此无需映射,直接使用cnn提取特征,最后缩放到一维。