pytesseract库使用报错修复
1、问题起因:
由于测试网站没有留有万能验证码,必须手动去获取验证码图片(使用pillow库)并进行验证码识别(使用pytesseract库)。
在使用pytesseract打开图片是遇到错误,没有找到文件
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH
2、排查解决:
首先找到pytesseract库安装的位置,找到pytesseract.py文件
打开文件后发现tesseract_cmd = 'tesseract',没有配置路径
3.尝试直接在pycharm中安装tesseract-cor报错
4.从网上找到相应的‘Tesseract-OCR’下载安装:
地址:https://github.com/tesseract-ocr/tesseract/wiki
页面往下拉,找到windows,点击Tesseract at UB Mannheim
找到需要的版本下载
5.下载完成后安装
6、添加到环境变量的系统变量(PATH),变量值是安装路径C:\Program Files\Tesseract-OCR
7.增加一个TESSDATA_PREFIX系统变量名,变量值还是安装路径C:\Program Files\Tesseract-OCR\tessdata
这是将语言字库文件夹添加到变量中
8.win+r打开cmd,输入:tesseract -v,可以看到版本信息,说明安装成功
9.在刚才打开的pytesseract.py文件中找到tesseract_cmd = 'tesseract'
修改为
tesseract_cmd =r'C:\Program Files\Tesseract-OCR\tesseract.exe'
10.再运行程序发现没有报错了