【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

 

CVPR 2019

 

  • Introduction

  这个和ATSER算法相似都是由Rectification network和recognition network组成,不过创新在于在对图片变形时,ASTER学习到TPS变换后仅做一次变换,本算法循环TPS变换N次。

  • Model

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

整体框架

2.1 Iterative Rectification Network

2.1.1 Line-Fitting Transformation

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

 

由于TPS变换需要找到control point,所以作者提出了一种描述文本位置的模型,即一个多项式描述文字中心连成的曲线,多个直线方程和长度表示每个字符的分割线。那么,control point就是分割线的端点。然后计算TPS的参数矩阵T,并对图片所有点进行变换。

2.1.2 Iterative Rectification

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

循环变换就是重复上一步的步骤,不过多次迭代后,由于在图形变换需要双线性插值这样会导致丢失关键像素信息,出现“boundary effect”。因此作者将每次TPS变换加在input image,而intermediately rectified image只作为预测control points。

2.2 Recognition Network

预测网络本文选的是ResNet+BiLSTM+Attention.