Mask TextSpotter论文学习

作者的贡献

  1. 作者提出一个文字检测与识别合在一起的端到端的模型;
  2. 提出的方法可以检测和识别任意形状的文字;
  3. 通过语义分割,检测和识别的准确率最高;
  4. 在不同的数据集实现了state-of-the-art;

语义分割:在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。比如说如下的照片,属于人的像素都要分成一类,属于摩托车的像素也要分成一类,除此之外还有背景像素也被分为一类。注意语义分割不同于实例分割,举例来说,如果一张照片中有多个人,对于语义分割来说,只要将所有人的像素都归为一类,但是实例分割还要将不同人的像素归为不同的类。也就是说实例分割比语义分割更进一步。
Mask TextSpotter论文学习
Mask TextSpotter论文学习

借鉴mask-RCNN和与其不同的地方

  • However, there are key differences between the mask branch of our method and that in Mask R-CNN.
  • Our mask branch can not only segment text regions but also predict character probability maps, which means that our method can be used to recognize the instance sequence inside character maps rather than predicting an object mask only.

参考