tesseract相关内容

Tesseract 用户模式

有谁知道如何在 Tesseract 中使用用户模式(user_patterns_suffix)?你能告诉我如何处理它以及如何测试它的工作吗?我试图遵循 Tesseract 指南(Tesseract 用户模式,但我没有看到它对结果有任何影响. 谢谢. 解决方案 Tesseract 将模式用于一种“正则表达式".如果假设您正在扫描具有相同格式数据的书籍,则可以使用它.一个模式可以用来告诉 ..
发布时间:2021-09-06 18:33:56 其他开发

如何使用命令行获得对 tesseract 的字符明智的信心?

我可以通过命令行使用 tesseract 4.0 获得单词级别的置信度分数.有兴趣知道是否也有办法让角色自信. 对于单词级别的置信度,使用以下命令: tesseract [图像名称] outputbase --oem 1 -l eng --psm 8 tsv 解决方案 在您的配置文件中将 hocr_char_boxes 设置为 1.或者,在命令行中,您更新的命令将是: tessera ..
发布时间:2021-09-06 18:33:48 其他开发

Tesseract安静模式

在 Ubuntu 下,我在 3.02 版中使用 tesseract-ocr.尤其是python的包装器pytesseract,不过这个问题也是关于命令行工具的. 在常见问题解答下https://code.google.com/p/tesseract-ocr/wiki/FAQ#How_can_I_make_the_error_messages_go_to_tesseract.log_inste ..
发布时间:2021-09-06 18:33:45 其他开发

pytesseract 仅使用 tesseract 4.0 数字不起作用

有人试图在 python 中调用最新版本的 tesseract 4.0 来获取数字吗? 以下在 3.05 中工作,但在 4.0 中仍然返回字符,我尝试删除所有配置文件但数字文件,但仍然无法正常工作;任何帮助都会很棒: im 是日期的图像,黑色文本白色背景: 导入pytesseractim = imageOfDateim = pytesseract.image_to_string(im ..
发布时间:2021-09-06 18:33:42 Python

使用 Tesseract 检测黑色背景上的白色字符

我对 Tesseract OCR 完全陌生.这个问题可能很简单,但我似乎无法使用 Google 找到答案. 基本上,我有一个包含两部分的图像:第一部分,位于图像的顶部,黑色背景和白色文本;第二部分位于图片的底部,背景为白色,文字为黑色. 我在图像上运行了 tesseract,它正确识别了底部的所有字符,但没有识别顶部的所有字符.我敢肯定,顶部的字符非常清晰,应该很容易被 Tessera ..
发布时间:2021-09-06 18:33:39 其他开发

如何将 R 输出数据保存到文本文件

希望你一切顺利. 我的问题可能已经被其他人回答了,但由于我找不到相关的答案,所以我在这里写了一篇文章. 问题 如何将 R 输出保存到文本文件. 我已经使用 R 从扫描的 PDF 中提取数据,但我的输出是在控制台中,我想将其保存为文本文件.如果您有任何建议,请告诉我. 我的代码如下 库(tesseract)文件名 = 'my_file.pdf'文件 ..
发布时间:2021-07-10 21:18:03 其他开发

将 tesseract 库与 QtCreator 链接

我正在尝试运行一个基于 tesseract API 的 C++ 程序,我在 Ubuntu 上使用 QtCreator 作为 IDE,以便执行页面布局分析: int main(void){int 左、上、右、下;tesseract::TessBaseAPI tessApi;tessApi.InitForAnalysePage();cv::Mat img = cv::imread("document ..
发布时间:2021-06-30 18:52:18 C/C++开发

pytesseract 找不到指定的文件

我的代码很简单,如下所示: 导入pytesseract从 PIL 导入图像img = Image.open('C:/temp/foo.jpg')img.load()i = pytesseract.image_to_string(img) 我得到的错误响应是: 回溯(最近一次调用最后一次):文件“img.py",第 6 行,在 中i = pytesseract.image_t ..
发布时间:2021-06-25 20:30:04 Python

如何解决 TesseractNotFoundError?

我正在尝试在 Python 中使用 pytesseract,但最终总是出现以下错误: 引发 TesseractNotFoundError()pytesseract.pytesseract.TesseractNotFoundError: tesseract 未安装或不在您的路径中 然而,pytesseract 和 Tesseract 安装在我的系统上. 产生此错误的示例代码: 导入 c ..
发布时间:2021-06-25 19:58:25 Python

Pytesser 中的数字字符识别

我正在开展一个项目,该项目要求我从商品交易所获取价格.不幸的是,该交易所没有可用的网络服务或其他插件来让我从交易屏幕上获取价格. 我想我可以自动制作价格的屏幕截图并将所有价格拆分为单个图像.之后,我使用 Tesseract 3.0.2 的 Pytesser V 0.0.1 库和 Python v2.7 中的 Pillow 3.1.0 处理它们.然而,图像到文本的转换(通过 image_to_ ..

Windows 上的 Perl Image::OCR::Tesseract 模块

有谁知道在 Windows 上安装“Image::OCR::Tesseract"模块的优雅方式?由于名为“LEOCHARRE::CLI"的 *NIX only 模块依赖项,该模块无法通过 CPAN 安装在 Windows 上.这个模块似乎不需要运行“Image::OCR::Tesseract"本身. 首先手动安装 makefile.pl 中列出的依赖模块(“LEOCHARRE::CLI"除外 ..
发布时间:2021-06-15 20:43:37 其他开发

Node.js 比使用 Tesseract.Js 的浏览器 (Safari) 慢 20 倍

JS 新手和 Node.js 新手.在 Safari 中运行 Tesseract.js(文本识别软件:http://tesseract.projectnaptha.com)大约需要 10秒并立即开始输出进度. Node (v6.9.1)(从终端运行或通过 Electron 运行)在开始输出到控制台之前将 CPU 运行到 100% 持续 4 分 20 秒.然后它在大约同一时间完成. 建议采取 ..
发布时间:2021-06-15 19:39:04 前端开发

如何使 Tesseract 更快

这是一个远景,但我不得不问.我需要任何可能使 Tesseract OCR 引擎更快的想法.我正在处理由大约 2000 万页文本组成的 200 万个 PDF,我需要尽可能地发挥性能.目前的估计是,如果我什么都不做,这将需要大约一年的时间才能完成. 我已经调整了输入图像以在那里获得一些提升,但我需要考虑其他方法.我不认为对图像的改进会让我在这一点上有所作为. 例如: 可以使用优化标志 ..
发布时间:2021-06-15 19:22:44 C/C++开发

Tesseract OCR 大量文件

我的硬盘上有大约 135000 个 .TIF 文件(1.2KB 到 1.4KB).我需要从这些文件中提取文本.如果我将 tesseract 作为 cron 作业运行,我每小时最多可以获得 500 到 600 个.谁能给我建议策略,这样我每分钟至少可以获得 500 个? 更新: 以下是我在执行@Mark 给出的建议后的代码,但我似乎每分钟没有超过 20 个文件. #!/bin/bash ..
发布时间:2021-06-14 18:53:52 其他开发

我们正在使用 tesseract 进行 pan OCR,但无法检测名称和 pan 编号等详细信息

我们通过每次迭代将高度增加 20px 来裁剪 pan card 图像,然后我们将该图像传递给 tesseract 以执行 ocr,但我们在输出时会产生噪音.如果您有更好的图像处理解决方案或另一个库,如 cv2 那么请帮助我们. 导入pytesseract从 PIL 导入 Image、ImageEnhance、ImageFilterim = Image.open("image/testpan.jp ..
发布时间:2021-06-12 19:46:34 Python

cmake 和 tesseract,如何使用 cmake 进行链接

我正在尝试针对 tesseract 构建我的应用程序,我已经通过 brew 安装了它(在 mac os x 上工作). 虽然我可以使用 g++ 和 pkg-config 毫无问题地编译我的应用程序,但我不知道如何使用 cmake 做同样的事情. 我尝试了 FIND_PACKAGE tesseract REQUIRED 但它似乎无法找到它.有人有示例 CMakeLists.txt 吗? ..
发布时间:2021-06-12 19:44:32 C/C++开发