Tesseract 数据训练
1. Merge合并样本文件 生成后缀为.tif格式文件 khm.font.exp0.tif
Tool->merge tiff (jTessBoxEditor工具)
2. 生成 .box文件 khm.font.exp0.box (注意-l khm –psm)
tesseract khm.font.exp0.tif khm.font.exp0 -l khm –psm 7 batch.nochop makebox
3. 使用JtessBoxEditor 开启之前生成的.tif文件
4. 修正调整并保存
5. 利用.tif和.box文件生成.lstmf文件用于lstm训练
tesseract khm.font.exp0.tif khm.font.exp0 -l khm --psm 7 lstm.train
6. 从已有的.traineddate中提取.lstm 文件(khm语言数据)
下载地址:https://github.com/tesseract-ocr/tessdata_best
combine_tessdata -e khm.traineddata khm.lstm
7. 创建一个khm.training_file.txt文件,里面的内容为.lstmf文件的路径地址
8. 进行训练
lstmtraining
--model_output="<filepath>\output"
--continue_from="<filepath>\khm.lstm"
--train_listfile="C<filepath>\khm.training_files.txt"
--traineddata="<filepath>\khm.traineddata"
--debug_interval -1
--max_iterations 800
9. 将checkpoint文件和.traineddata文件合并成新的.traineddata
lstmtraining
--stop_training
--continue_from="<filepath>\output_checkpoint"
--traineddata="<filepath>\khm.traineddata"
--model_output="<filepath>\zth.traineddata"
10. 命令介绍 lstmtraining -help帮助
--modeloutput 模型训练输出的路径(我在new_05文件夹中新建了一个名为output的文件夹用来存输出的文件)
--continue_from 训练从哪里继续,这里指定提取的khm.lstm文件,
--train_listfile 指定上一步创建的文件的路径
--traineddata 下载的.traineddata文件的路径
--debug_interval 当值为-1时,训练结束,会显示训练的一些结果参数
--max_iterations 指明训练遍历次数
--stop_training 默认要有的
--continue_from 上一步生成的output_checkpoint文件路径
--traineddata 第4步中下载的.traineddata文件的路径
--model_output zth.traineddata 输出的路径
11. 将生成的zth.traineddata文件复制到Tesseract-OCR\tessdata路径下
12. tesseract –-list-langs 查看支持语言
13. 运行 tesseract 1.jpg output -l zth –psm 7查看识别结果