【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification
CVPR 2019
- Introduction
这个和ATSER算法相似都是由Rectification network和recognition network组成,不过创新在于在对图片变形时,ASTER学习到TPS变换后仅做一次变换,本算法循环TPS变换N次。
- Model
整体框架
2.1 Iterative Rectification Network
2.1.1 Line-Fitting Transformation
由于TPS变换需要找到control point,所以作者提出了一种描述文本位置的模型,即一个多项式描述文字中心连成的曲线,多个直线方程和长度表示每个字符的分割线。那么,control point就是分割线的端点。然后计算TPS的参数矩阵T,并对图片所有点进行变换。
2.1.2 Iterative Rectification
循环变换就是重复上一步的步骤,不过多次迭代后,由于在图形变换需要双线性插值这样会导致丢失关键像素信息,出现“boundary effect”。因此作者将每次TPS变换加在input image,而intermediately rectified image只作为预测control points。
2.2 Recognition Network
预测网络本文选的是ResNet+BiLSTM+Attention.