谷歌街景中路牌、广告等标识文字的识别(文本识别在自然场景下的应用)之文本识别分类器
1.简介
谷歌街景中的文本读取主要分为文本检测和文本识别。这两个模块各使用了一个训练好的CNN分类器用于字符的判断和识别。CNN基于字符训练数据集中的正样本和负样本,从中学习字符的特征表达,并训练形成最终的分类器。
文本检测模块训练的是一个2元分类器,用于判别该CNN视野范围内是否包含文字,称为字符判断分类器;文本识别模块训练的是一个62元分类器(针对10个数字和52个大小写英文字母),识别该CNN视野范围内的文本内容,也叫做字符识别分类器。
通过摄像头读取到街景的图像,对需要进行文本识别的图像进行分析,利用这两个模块的训练可以实现对街景图像的文本检测和字符识别。通过使用卷积神经网络检测和识别英文和数字,而不需要依赖于领域知识和人工指定的规则。系统接收一张场景图像作为输入。经过文本检测模块和文本识别模块的处理后输出场景图像中方形文本区域的坐标和对应的识别结果。
2.流程图
3.文本识别分类器
卷积神经网络(CNN)分类器
一个最为简单的三层神经网络已经可以拟合任意函数,根据实验表明,前馈神经网络的层数越多,其学习到的模型越准确。卷积神经网络(CNN)也是这样的一个多层前馈神经网络,区别于普通深层神经网络,其在结构上有着自己的特点:一是具有被称为卷积层和池化层的特殊结构,二是CNN网络使用权值共享。卷积操作是图像的基本操作之一,它使得CNN更加善于处理图像;由于图像由一个个像素构成,而每幅图像中所包含的像素点个数相对较多,因此池化层和权值共享更有利于减少参数,有利于CNN的训练。
文本检测和文本识别是谷歌街景中文本读取的主要环节,这两个模块各使用了一个训练好的CNN分类器用于字符的判断和识别。CNN基于字符训练数据集中的正样本和负样本,从中学习字符的特征表达,并训练形成最终的分类器。文本检测模块训练的是一个2元分类器,用于判别该CNN视野范围内是否包含文字,称为字符判断分类器;文本识别模块训练的是一个62元分类器(针对10个数字和52个大小写英文字母),识别该CNN视野范围内的文本内容,也叫做字符识别分类器。