天池比赛:街景字符编码识别(T1赛题理解)

Prerequisite

  1. 深度学习基础
  2. 耐得住今天5月20日被秀的寂寞

比赛简介

任务

主要针对新人上手计算机视觉赛事,此次比赛任务为给定图片输出字符,即文本识别。

数据集

训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。
天池比赛:街景字符编码识别(T1赛题理解)
出题方已经给出训练集和验证集的字符位置信息。

即是下图:
天池比赛:街景字符编码识别(T1赛题理解)
天池比赛:街景字符编码识别(T1赛题理解)

评价指标

accuracy=accuracy = \frac{字符识别正确的图片数量}{总图片数量}

如何获得0分

使用SVHN原始数据集进行训练。

赛题难点

赛题不同于一般的图像数字识别,其难点在于不定长的字符识别。因而如何处理不定长是本题的关键。

解题思路

定长字符识别

设字符类别数目为CC,设置一个最大字符长度LL,用卷积网络提取图像特征后,特征整合后(FC,RNN等),最后输出一个C×LC\times L长度的神经元层。并用SoftmaxSoftmax做分类。

架构图

天池比赛:街景字符编码识别(T1赛题理解)

举个例子

C=11C=11L=8L=8,假设有真实标签:123123,有一输出:
1_22__331\_22\_\_33
至于有22,3322,33的出现,原因在于类似于下面情况:
天池比赛:街景字符编码识别(T1赛题理解)
只是一个类似思考而已, 和目标检测没关系

因而对于这种情况,可以通过写规则的方法解决,即是将连续重复出现的字符和空白进行删除。
但是若真实标签为12231223那么这种方法会输的很惨。

不定长字符识别

此方法可以很好的解决上述问题。
please jump: 一文读懂CRNN+CTC文字识别

男女搭配法

其实这类题,很容易就会想到先用目标检测提取字符方框,再用图像分类。并且目标检测的准确率和高效性目前都有不错的效果,比如YOLOYOLO等等。

至于这次比赛到底是CRNN还是OD+Clf会更胜一筹,还是会有其他算法,模型架构横空出世,咱们码场见!
天池比赛:街景字符编码识别(T1赛题理解)
天池比赛:街景字符编码识别(T1赛题理解)
永远要在一起哦