【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

CVPR 2019

这个和ATSER算法相似都是由Rectification network和recognition network组成，不过创新在于在对图片变形时，ASTER学习到TPS变换后仅做一次变换，本算法循环TPS变换N次。

整体框架

2.1 Iterative Rectification Network

2.1.1 Line-Fitting Transformation

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

由于TPS变换需要找到control point，所以作者提出了一种描述文本位置的模型，即一个多项式描述文字中心连成的曲线，多个直线方程和长度表示每个字符的分割线。那么，control point就是分割线的端点。然后计算TPS的参数矩阵T，并对图片所有点进行变换。

2.1.2 Iterative Rectification

【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

循环变换就是重复上一步的步骤，不过多次迭代后，由于在图形变换需要双线性插值这样会导致丢失关键像素信息，出现“boundary effect”。因此作者将每次TPS变换加在input image，而intermediately rectified image只作为预测control points。

2.2 Recognition Network

预测网络本文选的是ResNet+BiLSTM+Attention.