如何提高OCR准确率? [英] How to improve OCR accuracy?

查看:113
本文介绍了如何提高OCR准确率?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有 2 张图片,如下所示.A.png 被 tesseract 完美读取,但 B.png 的准确性非常差,即使 B.png 与 A.png 相似.我怎样才能提高准确性?我不知道从哪里开始调试?

  • A.png

  • B.png

  • 运行 OCR

# tesseract -v超立方体 4.1.1-rc2-22-g08899

# tesseract A.png stdout -l jpn --psm 6警告:分辨率 0 dpi 无效.使用 70 代替.第三期决算公告令和2年2月7日大阪市中央区南新町一丁目3番10号株式会社 Link_Mobile代表取缔役佐々木勉贷借対照表の要旨(平成31年3月31日现在}

# tesseract B.png stdout -l jpn --psm 6警告:分辨率 0 dpi 无效.使用 70 代替..人加计区三6番12号中野駅前ビル 5 |、是人兆瓦にて贷借対照表の要旨(令和元年11月30日现在}

<小时>

更新 1

<块引用>

是否使用相同的扫描仪以相同的分辨率扫描?

是的.原来包含在同一个 PDF 中的图像被剪掉了.

<块引用>

在执行 OCR 之前,您是否利用 Tesseract 公开的任何 API 来预处理图像?

没有.我不知道.我正在检查它.

解决方案

改进了.我阅读了

  • 运行 OCR

# tesseract B2.png stdout -l jpn --psm 6第54期决算公告_令和2年1月29日东京都中野区中野三丁目36番12号中野駅 前ビル 5 F株式会社コーエーテクニカ代表取缔役小空_修贷借対照表の要旨(令和元年11月30日现在)

I have 2 images like shown below. A.png is perfectly read by tesseract but B.png is terribly bad accuracy even though the B.png is similar to A.png. How can I improve the accuracy? I have no idea where to start debugging?

  • A.png

  • B.png

  • Run OCR

# tesseract -v
tesseract 4.1.1-rc2-22-g08899

# tesseract A.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
第 3 期 決算 公告 令 和 2 年 2 月 7 日
大 阪 市 中 央 区 南 新町 一 丁目 3 番 10 号
株 式 会 社 Link_Mobile

代表 取締 役 佐々 木 勉

貸借 対照 表 の 要旨 (平成 31 年 3 月 31 日 現在 }

# tesseract B.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
。 人 加計
区 三 6 番 12 号
中 野 駅 前 ビル 5 | 、
am 人 mw
に て
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 }


Update 1

Were both scanned using the same scanner, and at the same resolution?

Yes. The images that were originally included in the same PDF were cut out.

Are you taking advantage of any APIs which Tesseract exposes for pre-processing the images before doing OCR?

No. I did not know that. I am checking now about it.

解决方案

It improved. I read "Tesseract documentation" and rescaled the image.

Rescaling Tesseract works best on images which have a DPI of at least 300 dpi, so it may be beneficial to resize images. For more information see the FAQ.

  • Rescaled image

  • Run OCR

# tesseract B2.png stdout -l jpn --psm 6
第 54 期 決 算 公 告 _ 令 和 2 年 1 月 29 日
東京 都 中 野 区 中 野 三 丁目 36 番 12 号
中 野 駅 前 ビル 5 F
株 式 会 社 コ ー エ ー テ クニ カ
代表 取締 役 小 空 _ 修
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 )

这篇关于如何提高OCR准确率?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆