Tesseract 数据训练

    1. Merge合并样本文件   生成后缀为.tif格式文件  khm.font.exp0.tif

            Tool->merge tiff  (jTessBoxEditor工具)

 

     2. 生成 .box文件 khm.font.exp0.box (注意-l khm –psm)

tesseract khm.font.exp0.tif khm.font.exp0 -l khm –psm 7 batch.nochop makebox

     3. 使用JtessBoxEditor 开启之前生成的.tif文件

 

    4. 修正调整并保存

 

Tesseract 数据训练

5. 利用.tif和.box文件生成.lstmf文件用于lstm训练

tesseract khm.font.exp0.tif khm.font.exp0 -l khm --psm 7 lstm.train

6. 从已有的.traineddate中提取.lstm 文件(khm语言数据)

下载地址:https://github.com/tesseract-ocr/tessdata_best

combine_tessdata -e khm.traineddata khm.lstm

7. 创建一个khm.training_file.txt文件,里面的内容为.lstmf文件的路径地址

Tesseract 数据训练

 

 

8. 进行训练

 

lstmtraining

--model_output="<filepath>\output"

--continue_from="<filepath>\khm.lstm"

--train_listfile="C<filepath>\khm.training_files.txt"

--traineddata="<filepath>\khm.traineddata"

--debug_interval -1

--max_iterations 800

 

 

9. 将checkpoint文件和.traineddata文件合并成新的.traineddata

 

lstmtraining

--stop_training

--continue_from="<filepath>\output_checkpoint"

--traineddata="<filepath>\khm.traineddata"

--model_output="<filepath>\zth.traineddata"

 

10. 命令介绍 lstmtraining -help帮助

--modeloutput 模型训练输出的路径(我在new_05文件夹中新建了一个名为output的文件夹用来存输出的文件)

--continue_from 训练从哪里继续,这里指定提取的khm.lstm文件,

--train_listfile 指定上一步创建的文件的路径

--traineddata 下载的.traineddata文件的路径

--debug_interval 当值为-1时,训练结束,会显示训练的一些结果参数

--max_iterations 指明训练遍历次数

--stop_training 默认要有的

--continue_from 上一步生成的output_checkpoint文件路径

--traineddata 第4步中下载的.traineddata文件的路径

--model_output zth.traineddata 输出的路径

       11. 将生成的zth.traineddata文件复制到Tesseract-OCR\tessdata路径下

      12. tesseract –-list-langs 查看支持语言

            Tesseract 数据训练

       13. 运行 tesseract 1.jpg output -l zth –psm 7查看识别结果

              Tesseract 数据训练