Tesseract box/tif文件名中的字体名称是否重要?
问题描述:
在Tesseract wiki中,要在训练中使用的标记的tif/box文件文件名格式为[lang].[fontname].exp[num]
。 fontname
实际上是否会影响培训或仅仅是为了簿记?Tesseract box/tif文件名中的字体名称是否重要?
在我的特殊情况下,我有大量不同字体的文档图像(并且我不知道其中包含哪些字体)。我可以为手动标记的每个文档使用eng.idontknow.exp[num]
吗?或者由于某种原因,这会搞乱培训吗?提前致谢!
答
最好匹配一个真实的字体(以帮助可能的OCR分析),但它可以是一些任意的字体名称。