CCPD数据集和相关论文:Towards End-to-End LPDR:A Large Dataset and Baseline 阅读笔记
Model
主要是两部分网络,第一部分是Detection module,第二部分是Recognition module
第一部分含有十层卷积神经网络,将图像进行卷积,10层卷积之后的特征,11*11*192(23232个点),每一个点进入分类器(三层全连接)最后得到四个值boxLoc=[a,b,c,d]。
其中boxLoc=[a,b,c,d] postfix=[[1,0,1,0],[0,1,0,1],[-0.5,0,0.5,0],[0,-0.5,0,0.5]]
boxNew=[a-0.5c,b-0.5d,a+0.5c,b+0.5d]
boxNew是矩阵boxLoc与矩阵postfix相乘的结果;
矩阵p1,p2,p3是第2,4,6层卷积之后得到的特征层的长宽矩阵,为了特征提取方便设置为对角矩阵;
矩阵_x1,_x2,_x3是第2,4,6层卷积之后得到的特征层;
boxNew与pi相乘得到的是roi
与将第2,4,6的卷积结果进行bbox Regression得到更精确的Proposal Region,得到ROI。第二部分再通过三个ROI级联(类似与Inception模型中的连接方式)进行全连接后使用分类器得到结果。
浅层的卷积特征比深层的卷积特征更有利于提高语义分割的质量。
这里面与之前的物体检测的一系列神经网络的思想都有关系,还需要继续学习改进。
只是用到了浅层的特征会含有语义关系这一点,并没有进行候选框回归检测和极大值抑制等物体检测的步骤。
CCPD数据集
在论文中讲到数据集中含有对车牌box的标注,但是数据集中图片本身并没有这一项。
其文件名称包含了很多有用的信息。分别是车牌在图中所占比例,倾斜角度,候选区的坐标,实际坐标,车牌文字,亮度和模糊程度。
给出的模型
运行demo
运行demo后会将在测试图片的基础上将识别结果输出在测试图片上。
wR2.ph和fh02.ph都只是经过五次迭代训练的,对于部分数据集识别效果不是很好。
存在问题:
1.对于两行的车牌识别效果不是很好。
2.对于多车牌识别效果不好。
3.对于给出的demo中不能输出省份,主要是cv2.putText()函数不能将汉字输出在图片上。
注:本文选自ECCV2018的论文《Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline》