Tesseract-全线输出 [英] Tesseract - Entire line output

查看:132
本文介绍了Tesseract-全线输出的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用Tesseract对少数几张桌子进行OCR.这些表具有以下格式:

I am trying to OCR few tables using Tesseract. These tables have following format:

Item One name                       Item One category
(Item description if any)

Item Two name                       Item Two category
(Item description if any)

名称和类别之间有一些空格.产生的输出是这样的

There is some space between the name and category. The output produced is like this

Item One name
(Item description if any)

Item Two name
(Item description if any)


Item One category

Item Two category

有没有一种方法可以产生整行的输出,而不是使该列的输出在另一个输出的下面?

Is there a way that I can produce output for the entire line and not get this column wise output one below the other?

我正在通过简单的命令行运行Tesseract:

I am running Tesseract through simple command line:

tesseract ~/Desktop/imagename.jpg out

推荐答案

尝试使用其他页面细分模式(PSM),例如4或6.

Try with a different page segmentation mode (PSM), such as 4 or 6.

这篇关于Tesseract-全线输出的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆