TensorFlow识别复杂验证码以及搭建生产环境(1)—— 收集训练集
0x00 前言
最近我们的教务系统升级了,这是我们新教务系统的验证码,字体歪斜,有干扰线。(如下图)
如果能够识别这个验证码,就能够自动登录,避免手工输入验证码所带来的烦恼,为一些自动化操作奠定基础,例如,自动选课:完美避免抢不上课,自动查成绩,查完成绩还可以发邮件或者短信:那样就可以不用老是登上系统查成绩了,一切都是自动化完成,但是一切的前提是识别如上的验证码。(下图为以验证码识别系统为基础的自动查成绩系统的客户端界面,以及短信送达界面)
想法很完美,但是要如何实现呢,为了识别验证码,我们首先要收集足够多的训练素材。
这个纯粹是个手工活,经过博主的不懈努力,花费了大量的人力物力,终于收集了8万4千余张训练素材。
每张图片都以正确答案标注(如下图)
8万张训练集 以及1324张测试集
下载地址
密码:ltcz