1.1tesseract

1.1.1基础知识

主要用来文字图片的识别，验证码的识别等。就是将图像翻译成文字，也就是文字识别，是由googl公司推出的

安装包下载地址训练数据集下载地址

使用方式

百度搜索：tesseract，下载该软件，安装
设置该软件的环境变量
在含有想要识别的文件中打开cmd，使用命令tesserct 图片名.png 文本文件名
如果想要识别中文数据，我们可以通过更改训练数据的包来更改。首先，在tesseract中找到目录tessdata，将该数据集中的eng.traineddata文件替换成我们从网上下载的训练集，名字要和原来的文件的名字一样。

1.1.2tesseract使用案例

需要识别的图片

【机器视觉】tesseract基本使用

执行的命令

tesseract meiwen.png meiwen

识别出的文本

【机器视觉】tesseract基本使用

1.2pytesseract库

1.2.1基础知识

如果上述可以成功完成，我们就可以使用代码实现验证码的自动化识别了，首先安装：pip3.6 install pytesseract，然后进行下列代码操作。如果遇到没有找到pytesseract的错误，我们可以重启pycharm解决(原因：你虽然设置了环境变量，但是pycharm并不知道你已经设置了。必须重启pycharm重新加载环境变量。)

driver.save_screenshot('./poem.png') # 将浏览器对象保存在该路径下
image=Image.open('./poem.png') # 打开该路径下的图片文件
result = pytesseract.image_to_data(image) # 解析该图片的信息
result = pytesseract.image_to_string(image) # 识别该图片的文本内容
image.show() # 展示打开的图片文件
driver=webdriver.Chrome(default='python解释器路径') # 创建Chrome对象
code=driver.page_source # 页面源码获取到的是页面源码

1.2.2使用案例

pytesseract案例

【机器视觉】tesseract基本使用

1.1tesseract

1.1.1基础知识

1.1.2tesseract使用案例

1.2pytesseract库

1.2.1基础知识

1.2.2使用案例

相关推荐