TextBoxes++ 论文阅读笔记一

一. 解决的问题
针对自然场景中多方向,小尺度,极端宽高比的快速文本检测问题,提出的一种one stage端到端训练的文本检测方法,只需非极大值抑制一种后处理方法即可获得最终结果.最后通过CRNN文本识别修正检测结果,达到SOTA效果.

二. 前言
对比于传统OCR,自然场景的文本检测面临着以下问题:
1). 前背景物体变化巨大(理解为不同场景的自然文本差异巨大,背景差异巨大);
2). 文本方向不定;
3). 文本宽高比不定;
4). 无法控制的光线环境;
为了解决这些问题,作者提出了一种one stage,可以端到端训练的方法,该方法有以下特点:
1). 回归四个点,使得可检测文本范围由水平文本扩展到任意角度文本;
2). 鉴于文本图像宽高比的特殊性,设计一种长卷积核去适应这种特殊的情况,提供合适的感受野;
3). 多尺度输出,适应多尺度文本图像;
4). 通过非极大值抑制一种后处理即可输出多尺度文本检测结果.
5). 通过引入CRNN文字识别方法,提升了文本检测的准确性,达到SOTA效果.

三. 相关工作
1). 物体检测,分RCNN系列和YOLO系列,即two stage 和 one stage, 不是重点,不细说;
2). 文本检测
2.1). 基于初始检测结果的分类策略
2.1.1). 基于字符
检测到单个字符或者文本的一部分,然后再将其组合成文本的一种方法.代表文章"Real-time scene text localization and recognition"
2.1.2). 基于词语
类似与传统物体检测的一种方法,代表文章"Reading text in the wild with convolutional neural networks"
2.1.3). 基于文本线
首先检测到文本行,再将其断开成单词,代表文章"Symmetry-based text line detection in natural scenes"
2.2). 基于目标框形状的分类策略
2.2.1). 水平或近似水平文本
这种方法主要用于检测水平或者近似水平的文本,其中文章的前序研究"TextBoxes"为检测水平文本.
2.2.2). 多方向文本
这种方法用于检测任意方向的文本,本文即为这种情况.
2.2.3). 曲线文本(补充)
类似于"CTD"这样的自然场景曲线文本检测应该也可以分为这样的大类下.
TextBoxes++ 是基于词语且多方向的文本检测工作

放一张论文中的插图先,后续细节,下回拆解.
TextBoxes++ 论文阅读笔记一