训练Tesseract 3.02的最佳方法 [英] Best method to train Tesseract 3.02
问题描述
我想知道针对特定类型的文档训练Tesseract(文本/TIFF等)的最佳方法是什么,
i'm wondering what is the best method to train Tesseract (kind of text/TIFF and so on) for a particular kind of documents, with these particularities:
- 文档的结构和正文始终相同
- 唯一改变的是5个字母数字代码(这是真正重要的检测对象!)
- 其中一些代码为粗体
当我使用标准训练有素的数据时,我检测了整个文本,并使用一些正则表达式对代码进行了推断. 没关系,但有时会出现错误,例如:
At the moment I used standard trained datas, I detect the entire text and I extrapolate the codes with some regular expressions. It's okay, but I've got errors sometimes, for example:
0/O
L/I/1
请有人知道一些技巧"以提高精度?
Please someone knowns some "tricks" to improve precision?
谢谢!
推荐答案
在Tesseract的培训过程中,您必须手动制作文件以提供给引擎,以指定不明确的字符.
during training part of Tesseract, you have to make a file manually to give to the engine in order to specify ambiguous characters.
有关更多信息,请参见 Tesseract文档中的"unicharambigs"部分.
For more information look at the "unicharambigs" part of the Tesseract documentation.
最好的问候.
这篇关于训练Tesseract 3.02的最佳方法的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!