街景识别-零基础入门-task1

街景识别-理解篇

名称

街道字符识别

目标

1.以计算机视觉为背景,预测街道字符编码,完成字符识别。
2.走进计算机视觉领域,锻炼并提高对数据建模的能力。

数据

数据集来自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到实验数据集。数据集在阿里云 天池报名后可见并可下载,该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。
街景识别-零基础入门-task1
训练集给出每张图片的lable和图片中具体字符框位置(每一个数字均有一个字符框),验证集和测试集给出字符位置。
街景识别-零基础入门-task1
街景识别-零基础入门-task1

思路

街景字符识别的实质为分类问题,需要对图片中字符进行识别。但每副图片中数字个数不一,因此可以将字符识别问题分为定长字符识别和不定长字符识别。
定长字符识别
定长字符识别是简单入门的思路,它是在对图片中字符个数已知的前提下进行的。对于本次实验数据集,最多字符长度为6位,因此可将所有的图像抽象为6个字符识别的问题。对于字符长度刚好为6位的图像,将对字符一一识别,对于字符长度不足6位点,则进行填充处理,比如:23,则填充为23xxxx;241,填充为241xxx。
街景识别-零基础入门-task1
不定长字符识别
街景识别-零基础入门-task1
在字符识别研究中,有专门针对不定长字符识别的模型,比如CRNN。本次实验数据集给出的图像数据比较规整,可以视为一个单词或者句子。
检测再识别
检测再识别不用提前已知数据长度,只是利用数据集中给出的位置属性进行识别,再利用物体检测思路完成即可。这种思路需要构建字符检测模型,对测试集中的字符进行识别。
街景识别-零基础入门-task1

评测指标

最终的结果需要与实际图片编码进行对比,以整体识别准确率为评价指标,任何一个字符错误即为失败,最终评测指标结果越大越好。评测公式为:
score=编码识别正确数量/测试集图片数量。

如果要对网络或者文字识别的方法有进一步的学习,可以搜一下网络上的paper,个人觉得这个也挺好,https://zhuanlan.zhihu.com/p/43534801。第一次写博客,小白零基础CV,浅薄的见解还望过往大佬多多指点~