【Paper Reading】【EAST: An Efficient and Accurate Scene Text Detector】
Two parts:
- 全卷积网络FCN
- 非极大值抑制
Pipeline:
- 像素级预测:单词级与文本行级
- 几何形状:rotated boxes 与 quadrangles
- 总体设计与DenseBox相似:
- 将图片输入FCN
- 一个预测通道输出[0, 1]像素值分数图,余下通道表示相对于每个像素的几何形状
Network Design:
-
采用U-shape,保持上采样分支较小的同时逐渐融合特征图
-
feature extraction stem:PVANet
- 在ImageNet上与训练的卷积网络
- 四层特征图,大小为输入图片的1/32, 1/16, 1/8, 1/4
- 实验中亦采用VGG16模型,提取pooling-2到pooling-5的特征
-
feature-merging branch:
每一个merging stage,先将last stage的特征图输入unpooling layer进行double size,然后与当前的特征图串联起来;接下来用conv11 bottleneck减少通道数目和计算量,再用conv33融合信息并输出当前merging stage的结果。最后一个merging stage的结果输出到output layer -
output layer:
- 最终输出层包含数个conv1*1操作,将32个通道的特征图整合成单通道分数图Fs和一个多通道几何图Fg(RBOX 或 QUAD)
- RBOX:几何形状用四个通道的axis-aligned bounding box (AABB) R和单通道rotation angle θ表示。其中四通道分别表示像素位置到矩形上右下左边界的距离。
- QUAD:输出为8通道,pi=(Δxi,Δyi),i∈[1, 4],表示像素到四个顶点的偏移量
Label Generation:
- 分数图多边形的positive area设计为shrunk version of the original one:
Traning:
ADAM
512*512 crops from images
minibatch = 24
LR starts from1e-3, decays to 1/10 every 27300 minibatches and stop at 1e-5
Limitations:
- 检测器能够处理的文本实例最大尺寸与网络的感受野成比例,从而限制了网络预测极端长度文本行(跨越整个图片)
- 对于垂直文本实例可能误检或漏检
Future Work:
- 调整几何形状组成,检测弯曲文本
- 整合检测与识别
- 将idea应用到一般目标检测