Tesseract - 使用与主要 OCR 不同的图像格式进行训练 [英] Tesseract - train with different image format than used for primary OCR

查看:43
本文介绍了Tesseract - 使用与主要 OCR 不同的图像格式进行训练的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

正如在这个 SO 问题中所讨论的,tesseract 通常与 .png 文件而不是 .tiff 文件.(我自己也直接经历过这一点).不幸的是,可以处理 .png 文件的框编辑器较少.因此,我很想使用 .tiff 文件训练我的数据,但随后将 .png 文件用于我的主要 OCR 工作.这样做会降低培训的效果吗?如果是这样,有什么方法可以解决它(除了找到一个可以接受 .png 文件的框编辑器)?

As discussed on this SO Question, tesseract often operates better with .png files than with .tiff files. (I have also experienced this directly myself). Unfortunately, there are fewer box editors available that can handle .png files. I therefore am tempted to train my data using .tiff files but then use .png files for my main OCR work. Will doing so reduce the effectiveness of the training? If so, are there any ways to address it (other than just finding a box editor that can accept .png files)?

推荐答案

一些编辑器如 jTessBoxEditor (Tesseract AddOns 页面)支持 TIFF 和 PNG 格式.由于 TIFF 可以是多页图像,因此与单页 PNG 相比,它可以为您的字符集提供更多样本.

Some editors such as jTessBoxEditor (Tesseract AddOns page) support both TIFF and PNG formats. Since TIFF can be multi-page image, it can have a lot more samples for your character set than single-page PNG.

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

这篇关于Tesseract - 使用与主要 OCR 不同的图像格式进行训练的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆