win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

我的环境是 python 3.66

安装tesseract

  1. 在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。

    安装Tesseract是前提,参考https://blog.****.net/YYHEZB/article/details/80846722,这位博主写得蛮清楚的,引用一下

            遇到的问题:版本没对上,导致安装失败,Tesseract和tesserocr是搭配使用的,版本也有对应要求的

    下载地址是 https://digi.bib.uni-mannheim.de/tesseract/ 

  2. win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

  • 进入下载页面,可以看到有各种.exe文件的下载列表,其中文件名中带有dev的为开发版本,不带dev的为稳定版本,我自己选择下载的是
    tesseract-ocr-w64-setup-v4.0.0-beta.4.20180912.exe
  • 下载完成后双击,安装路径  D:\Program Files (x86)\Tesseract-OCR
  • 此时会出现以下界面,此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,语言较多,下载时间会比较长,请耐心等待,然后一路点击Next按钮即可。 
  • win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法
  1. 配置相应的环境变量

    搜索"环境变量“,找到用户变量和系统变量 两个【Path】项点开,都添加刚才拷贝的Tesseract 的安装路径 D:\Program Files (x86)\Tesseract-OCR 

  2. win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

  3. 如下图所示:win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    加入的值就是上面tesseract安装后所在的目录

  4. 再找到【系统变量】,新建一个变量名称为:TESSDATA_PREFIX 
    值为:刚才路径加上 \tessdata     D:\Program Files (x86)\Tesseract-OCR\tessdata

  5. win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

     

     

  6. 设置完环境变量后,以管理员身份 打开cmd窗口,看能否识别tesseract,输入命令tesseract -v

  7.  

    win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    记得是管理员身份 打开cmd窗口,否则后面安装可能出问题。

安装tesserocr

  1. 使用pip命令安装

    pip install tesserocr pillow

    安装过程中出现如下错误:

    win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    解决办法是:

    • 打开链接https://github.com/simonflueckiger/tesserocr-windows_build/releases
    • 下载tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 文件
    • 然后在cmd命令行中 win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法切换到该目录执行pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl,为防止其他问题产生,最好用管理员身份打开cmd窗口,如下图所示即为安装成功

    win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    测试

    1. 在cmd里面执行python命令import  tesserocr,然后看能否正常导入tesserocr

      win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    2. 下载需要识别的图片,比如这个test.jpg https://xpwi.github.io/Photos/p/test.jpg 

    3. 放在一个好找的目录,最好是 D:\Downloads 这样的win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

    4.  直接通过cmd命令行方式进行识别操作,需要注意的是img要在执行命令行时,所在的目录,比如下图所示我的图片是放在D:\Downloads的,所以我要先切换到D:\Downloads然后执行以下命令

    5.  打开 cmd 进入该图片的文件夹 

    6. 使用 cd 目录名 进入目录

    7. 使用 cd.. 返回上一级目录

    8. 输入: tesseract test.jpg output_1 –l eng

win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

中文识别

tesseract test1.jpg result -l chi_sim

win10 安装tesseract+tesserocr+pycharm导入tesserocr,各种问题+解决办法

这个带噪点的还行

  1. 也可以在py中识别,要把test.jpg 和代码放在同一个目录下,如果不是在同一个目录下需要修改open中的路径,需要注意的是如果是在pycharm中的话,要配置正确的python解析器,如果配置正确而且命令行中能正常导入的话,请重启pycharm,待包全部加载完毕之后,再次进行测试
  2.  

    import tesserocr

    from PIL import Image

    image = Image.open('test.jpg')

    result = tesserocr.image_to_text(image)

    print(result)