街景识别-理解篇

名称

街道字符识别

目标

1.以计算机视觉为背景，预测街道字符编码，完成字符识别。
2.走进计算机视觉领域，锻炼并提高对数据建模的能力。

数据

数据集来自Google街景图像中的门牌号数据集（The Street View House Numbers Dataset, SVHN），并根据一定方式采样得到实验数据集。数据集在阿里云天池报名后可见并可下载，该数据来自真实场景的门牌号。训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。
街景识别-零基础入门-task1
训练集给出每张图片的lable和图片中具体字符框位置（每一个数字均有一个字符框），验证集和测试集给出字符位置。

思路

街景字符识别的实质为分类问题，需要对图片中字符进行识别。但每副图片中数字个数不一，因此可以将字符识别问题分为定长字符识别和不定长字符识别。
定长字符识别
定长字符识别是简单入门的思路，它是在对图片中字符个数已知的前提下进行的。对于本次实验数据集，最多字符长度为6位，因此可将所有的图像抽象为6个字符识别的问题。对于字符长度刚好为6位的图像，将对字符一一识别，对于字符长度不足6位点，则进行填充处理，比如：23，则填充为23xxxx；241，填充为241xxx。
街景识别-零基础入门-task1
不定长字符识别

在字符识别研究中，有专门针对不定长字符识别的模型，比如CRNN。本次实验数据集给出的图像数据比较规整，可以视为一个单词或者句子。
检测再识别
检测再识别不用提前已知数据长度，只是利用数据集中给出的位置属性进行识别，再利用物体检测思路完成即可。这种思路需要构建字符检测模型，对测试集中的字符进行识别。
街景识别-零基础入门-task1

评测指标

最终的结果需要与实际图片编码进行对比，以整体识别准确率为评价指标，任何一个字符错误即为失败，最终评测指标结果越大越好。评测公式为：
score=编码识别正确数量/测试集图片数量。

如果要对网络或者文字识别的方法有进一步的学习，可以搜一下网络上的paper，个人觉得这个也挺好，https://zhuanlan.zhihu.com/p/43534801。第一次写博客，小白零基础CV，浅薄的见解还望过往大佬多多指点~

街景识别-零基础入门-task1

街景识别-理解篇

名称

目标

数据

思路

评测指标

相关推荐