tesseract-ocr 文字库安装

(1)首先下载tesseract-ocr
下载地址为百度网盘:https://pan.baidu.com/s/1OL0g1MBzeijD23JN0UGC0Q
下载成功之后,对下图所示的文件进行安装, 不过在安装时要记住安装的目录。
tesseract-ocr 文字库安装

(2)双击安装exe文件
安装成功之后,打开安装的文件所在的目录
tesseract-ocr 文字库安装
添加系统的环境变量
(3)打开cmd
输入SET TESSDATA_PREFIX=D:\Program Files\Tesseract-OCR\tessdata备注:这是本机安装
tessdata的地址
输入命令行:tesseract
tesseract-ocr 文字库安装
再次输入命令行:tesseract --list-langs
显示如图所示:
tesseract-ocr 文字库安装

显示这个图要修改python虚拟环境下的C:\Users\DELL\Anaconda3\Lib\site-packages\pytesseract的pytesseract.py的如图所示:
tesseract-ocr 文字库安装
并且下载语言包到tessdata的路径下:
tesseract-ocr 文字库安装
语言包下载链接:
二、chi_sim下载
现在tesseract 被托管到github上
https://github.com/tesseract-ocr/tessdata
然后看到里面可以下载相应的语言包
注意,上面的链接滑到底有提示