验证码处理(环境配置)(二)

1.python-tesseract下载安装及使用(https://blog.****.net/qq_26158277/article/details/75053764)

tesseract下载安装

网上有多种办法,这里我只说我用的办法了: 
登录到github的官网,然后再搜索栏里输入tesseract搜索 
验证码处理(环境配置)(二) 
选中下图第一个 
验证码处理(环境配置)(二) 
然后点击wiki选择我们要下载的版本 
验证码处理(环境配置)(二)
这里我安装的是windows版本的,并且我是用python代码跑的 
验证码处理(环境配置)(二)
其他语言包下载好之后放在安装目录下的tessdata下就行了 
验证码处理(环境配置)(二) 
下载好之后双击.exe文件就可以安装了。 
验证码处理(环境配置)(二) 
安装跟着安装步骤默认点击就行了,不要忘了把安装路径放在path环境变量里,这里我推荐放在最前面,因为我就是放在了最后面导致在dos中死活识别不了这个环境变量。 
安装好之后再dos中输如tesseract -v: 
验证码处理(环境配置)(二) 
显示如上图则证明安装好了。

tesseract使用

tesseract使用 
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

例如:

tesseract code.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.