训练Tesseract 3.02的最佳方法 [英] Best method to train Tesseract 3.02

查看:70
本文介绍了训练Tesseract 3.02的最佳方法的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想知道针对特定类型的文档训练Tesseract(文本/TIFF等)的最佳方法是什么,

i'm wondering what is the best method to train Tesseract (kind of text/TIFF and so on) for a particular kind of documents, with these particularities:

  • 文档的结构和正文始终相同
  • 唯一改变的是5个字母数字代码(这是真正重要的检测对象!)
  • 其中一些代码为粗体

当我使用标准训练有素的数据时,我检测了整个文本,并使用一些正则表达式对代码进行了推断. 没关系,但有时会出现错误,例如:

At the moment I used standard trained datas, I detect the entire text and I extrapolate the codes with some regular expressions. It's okay, but I've got errors sometimes, for example:

0/O

L/I/1

请有人知道一些技巧"以提高精度?

Please someone knowns some "tricks" to improve precision?

谢谢!

推荐答案

在Tesseract的培训过程中,您必须手动制作文件以提供给引擎,以指定不明确的字符.

during training part of Tesseract, you have to make a file manually to give to the engine in order to specify ambiguous characters.

有关更多信息,请参见 Tesseract文档中的"unicharambigs"部分.

For more information look at the "unicharambigs" part of the Tesseract documentation.

最好的问候.

这篇关于训练Tesseract 3.02的最佳方法的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆