我应该裁剪还是垫Tesseract OCR学习盒

问题描述：

我目前正在教Tesseract v3.02以识别英国驾驶执照卡。我正在使用QT Box Editor生成.box文件，因此我可以“训练”tesseract来识别这些文档的字体和布局。所以我想问一个问题：我是不是每封信都要仔细剪裁，或者最好是给它，比如一个1px的填充全面？我应该裁剪还是垫Tesseract OCR学习盒

答

所以答案是“任何似乎使引擎识别文本最好”。一旦编译完* .traineddata文件并对其进行测试，您只会知道它。

我正在用美国司机许可证从网站的摄像头做同样的事情。我正计划使用命令行版本，以便我可以从我的网站调用它，但最终可能会使用API。无论哪种情况，我是否可以训练tesseract在何处查看名称，地址和DOB的许可证，但不使用图形界面来阅读？基本上，仍然用命令行读取图像，但教它在哪里看？ – Tanoshimi

我不知道。你可能不得不问问开发人员。我最终使用了另一个（高级）包，它实际上告诉你它找到的每个单词的像素坐标。从这个角度来看，我可以使用预定义的模板来确定这个词应该是什么。所以它实际上告诉我它在哪里找到了这个单词，而且我知道如果它落在ID号码的范围内，那它实际上是一个ID号码。 –

我应该裁剪还是垫Tesseract OCR学习盒

相关推荐