天池比赛:街景字符编码识别(T1赛题理解)
Prerequisite
- 深度学习基础
- 耐得住今天5月20日被秀的寂寞
比赛简介
任务
主要针对新人上手计算机视觉赛事,此次比赛任务为给定图片输出字符,即文本识别。
数据集
训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。
出题方已经给出训练集和验证集的字符位置信息。
即是下图:
评价指标
如何获得0分
使用SVHN原始数据集进行训练。
赛题难点
赛题不同于一般的图像数字识别,其难点在于不定长的字符识别。因而如何处理不定长是本题的关键。
解题思路
定长字符识别
设字符类别数目为,设置一个最大字符长度,用卷积网络提取图像特征后,特征整合后(FC,RNN等),最后输出一个长度的神经元层。并用做分类。
架构图
举个例子
设和,假设有真实标签:,有一输出:
至于有的出现,原因在于类似于下面情况:
只是一个类似思考而已, 和目标检测没关系
因而对于这种情况,可以通过写规则的方法解决,即是将连续重复出现的字符和空白进行删除。
但是若真实标签为那么这种方法会输的很惨。
不定长字符识别
此方法可以很好的解决上述问题。
please jump: 一文读懂CRNN+CTC文字识别
男女搭配法
其实这类题,很容易就会想到先用目标检测提取字符方框,再用图像分类。并且目标检测的准确率和高效性目前都有不错的效果,比如等等。
至于这次比赛到底是CRNN还是OD+Clf会更胜一筹,还是会有其他算法,模型架构横空出世,咱们码场见!
永远要在一起哦