tesseract相关内容

QT 版本、工具包和编译器

我是 QT 新手,想知道 QT 版本、工具包和编译器之间有什么区别.在我的“构建和运行"选项卡中可用: 套件: 桌面 Qt 5.4.2 MSVC2013 64bit2 桌面Qt 5.5.0 MSVC2013 64bit Qt 版本: Qt 5.4.2 MSVC2013 64bit2 和一些 qmake.exe 路径 Qt 5.5.0 MSVC2013 64bit 和一些 ..
发布时间:2022-01-08 16:50:03 C/C++开发

Pytesseract No such file or directory 错误

首先我做了这里提到的一切pytesseract-no such file or directory错误 还是不行.现在我正在使用带有以下代码的 Pycharm IDE: 从 PIL 导入图像导入 pytesseract导入子流程im = Image.open('test.png')im.show()subprocess.call(['tesseract','test.png','out'] ..
发布时间:2022-01-08 10:09:10 Python

在 Windows 10 上安装 C++ tesseract

我在 Windows 10 上安装 tesseract 以使用 C++ 进行开发时遇到问题. 谁能提供指南以获得: 1. Leptonica(tesseract需要)lib和includes 2. Tesseract 库和包含 3. 将两者都链接到项目(例如 Visual Studio) 所以这个例子来自 https://github.com/tesseract-ocr/tess ..
发布时间:2021-12-23 18:11:42 C/C++开发

将 UIImage 转换为黑白而不是灰度以使用 tesseract

我在我的 iPhone 应用程序中使用了 tesseract. 我在我的图像上尝试了几个过滤器以将其转换为灰度图像,但是我希望得到设置阈值的结果,以便图像内的唯一像素是黑色或白色. > 我成功地使用了苹果灰度过滤器,它给出了适当的结果.然而,它仍然是一个 16 位图像(如果我错了,请纠正我).我目前使用的过滤如下: - (UIImage *) grayishImage:(UIImage ..
发布时间:2021-12-23 15:47:46 移动开发

如何从图像中检测文本区域?

我想从图像中检测文本区域作为 tesseract OCR 引擎的预处理步骤,当输入仅为文本时引擎运行良好,但当输入图像包含非文本内容时,它会下降,所以我只想检测文本内容图像,任何关于如何做到这一点的想法都会有所帮助,谢谢. 解决方案 看看这个 边界框 使用 OpenCV 代码演示的技术: 输入: 侵蚀: 结果: ..
发布时间:2021-12-18 11:27:24 C/C++开发

图像处理以提高tesseract OCR准确性

我一直在使用 tesseract 将文档转换为文本.文档的质量参差不齐,我正在寻找有关哪种图像处理可能会改善结果的提示.我注意到高度像素化的文本——例如由传真机生成的文本——对于tesseract来说尤其难以处理——大概所有这些字符的锯齿状边缘都会混淆形状识别算法. 什么样的图像处理技术可以提高准确性?我一直在使用高斯模糊来平滑像素化图像并看到一些小的改进,但我希望有一种更具体的技术可以产生 ..
发布时间:2021-12-18 10:48:36 其他开发

如何使用异步来提高 WinForms 性能?

我正在执行一些处理器繁重的任务,每次我开始执行该命令时,我的 winform 都会冻结,直到任务完成我什至无法移动它.我使用了与微软相同的程序,但似乎没有任何改变. 我的工作环境是带有 .net 4.5 的 Visual Studio 2012 private async void button2_Click(object sender, EventArgs e){任务任务 = OCRen ..
发布时间:2021-12-14 20:26:09 C#/.NET

如何在 Visual Studio 2010 中实现 Tesseract 与项目一起运行

我在 Visual Studio 2010 中有一个 C++ 项目并希望使用 OCR.我遇到了许多 Tesseract 的“教程",但遗憾的是,我得到的只是头疼和浪费时间. 在我的项目中,我将图像存储为 Mat.我的问题的一种解决方案是将此 Mat 保存为图像(例如 image.jpg),然后像这样调用 Tesseract 可执行文件: system("tesseract.exe imag ..
发布时间:2021-12-10 21:11:59 C/C++开发

提高 Python Tesseract OCR 的准确性

我正在使用 pytesseract 和 openCV 在 Python 中的一个简单 django 应用程序中,用于从图像文件中提取孟加拉语文本.我有一个表单,可让您上传图像,并在单击提交按钮时通过 jQuery 中的 ajax 调用将其发送到服务器端,以从图像中提取文本以实现 OCR(光学字符识别)的目的. 模板部分: ..
发布时间:2021-12-10 21:01:46 其他开发

使用 OpenCV 为 Tesseract OCR 预处理图像

我正在尝试开发一个应用程序,该应用程序使用 Tesseract 从手机摄像头拍摄的文档中识别文本.我正在使用 OpenCV 对图像进行预处理以更好地识别,应用高斯模糊和阈值方法进行二值化,但结果非常糟糕. 这里是我用于测试的图像: 和这里预处理的图像: 我可以使用哪些其他过滤器来使 Tesseract 的图像更具可读性? 解决方案 我在这里描述了一些为 Tesseract ..
发布时间:2021-12-10 20:50:41 其他开发

通过 virtualenv 在 AWS Lambda 上使用 Tesseract OCR

我整个星期都在尝试这个,所以这有点像万能的. 我正在尝试将 Tesseract OCR 打包到在 Python 上运行的 AWS Lambda(我还使用 PILLOW 进行图像预处理,因此选择了 Python). 我了解如何使用 virtualenv 将 Python 包部署到 AWS,但是我似乎找不到将实际 Tesseract OCR 部署到环境中的方法(例如/env/) 执行 ..
发布时间:2021-12-06 12:23:06 Python

Tesseract OCR 不适用于 64 位机器

我正在开发一个使用 Tesseract 进行 OCR 的应用程序. 我的代码在 Windows 32 位系统中运行良好.但是当我尝试使用 32 位 .dll 文件在 64 位机器上运行相同的代码时,代码正在运行,但代码没有给出准确的结果. 所以我使用 64 位 .dll 文件在 64 位机器上运行它.现在,当我尝试运行相同的程序时,在控制台(Eclipse Kepler)中出现以下错误 ..
发布时间:2021-11-25 00:13:19 Java开发

在 tesseract C++ API 中禁用字典辅助 OCR

我有一个使用 tesseract API 对技术数据表进行 OCR 处理的应用程序.我是这样初始化的: tesseract::TessBaseAPI tess;tess.Init(NULL, "eng", tesseract::OEM_TESSERACT_ONLY); 然而,即使使用了这样的自定义白名单 tess.SetVariable("tessedit_char_blacklist", ..
发布时间:2021-11-15 03:41:04 C/C++开发

在 Android 上训练 Tesseract

我正在使用 tess-two 库在 Android 上进行 OCR 识别.我想在 Android 上创建训练数据.我遵循了这个 link 并在 linux 系统上成功创建了训练数据.如何使用 tess-two 或任何其他库在 Android 上做同样的事情? 解决方案 适用于 Android 的 tess-two 库使用与在普通 Linux 系统上运行相同的 Tesseract 代码和相同 ..
发布时间:2021-11-15 03:36:19 移动开发

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆 pdf 文件,有些是可搜索的常规 pdf 文件,有些是不可搜索的某些文档的扫描版本.我想提取每个pdf的内容.要提取常规 pdf 的内容,我使用 Apache Tika 并从我使用的不可搜索的内容中提取内容 tesseract-ocr.但是我需要区分哪个pdf是nornal pdf,哪个不是.有没有办法做到这一点? 解决方案 这对你有帮助, public static bool ..
发布时间:2021-11-14 23:45:02 Java开发

Apache Tika 提取扫描的 PDF 文件

我在使用 Apache TIKA(1.10 版)时遇到了一些问题.我得到了一些 PDF 文件,它们只是扫描的纸片.这意味着每个页面只是一个图像.我的目标是无论如何都要提取 PDF 文件的文本. 我的 tesseract 设置正确,提取 JPG 和 PNG 文件就像一个魅力.我正在使用的代码看起来像这样(不要介意缺少的异常处理): public String extractText(Inpu ..
发布时间:2021-11-14 23:43:31 Java开发

为 Tesseract 提供模式

我同时使用 go 和 tesseract.我有类似的东西2^3 或 22^55 而且 Tesseract 有时仍然会出现白名单错误,所以我正在寻找一种方法来提供模式,我阅读了 FaQ 并在集市上尝试了建议的选项. 我的模式文件如下所示: \d\d^\d\d\d^\d\d\d^\d\d^\d\d 但不知何故它仍然不起作用.是否有任何提示可以使其工作,或者是实现这一点以生成新语言文 ..
发布时间:2021-09-06 18:36:19 其他开发

Tesseract:多页训练文件与多个单独文件的优势?

这个 SO answer 表明使用 .tif 文件训练 tesseract 比.png 文件,因为 .tif 文件可以有多个页面,因此训练样本更大.然而,这个 SO 问题讨论了训练程序一次多张图像.更重要的是,例如 man 页面mftraining 建议它可以接受多个训练文件. 是否有任何理由不使用多个单独的图像文件进行训练? 解决方案 看来,使用多个图像在单个字体上训练 tesse ..
发布时间:2021-09-06 18:36:14 其他开发