tesseract相关内容

C#tesseract仅扫描第一个.tiff页

我当前正在尝试OCR一些.tiff文件。显然,Tesseract只扫描每个文件的第一页。我一直在搜索关于谷歌的线索,但这并不是很有帮助。 此代码应从每个.tiff文件中获取全文: public async Task> ScannFile(string file) { if (Path.GetFileName(file).EndsWith(".pdf")) ..
发布时间:2022-08-12 15:02:27 C#/.NET

Tesseract-OCR验证码:需要阅读文本

验证码-01 验证码-02 我已经应用了一些图像预处理。当我将此图像应用到pytesseract.image_to_string()时,它的结果很差,您能建议我一个更好的结果吗。 推荐答案 Tesseract不是为中断验证码而设计的。Tesseract需要没有最少瑕疵的清晰图像。 如果实现验证码,这是有原因的。与其破坏规则,不如联系站点管理员以达成合作协议,而不是违反 ..
发布时间:2022-08-12 14:55:41 其他开发

使用Tesseract-OCR获取识别字符的字体

是否可以使用Tesseract-OCR从命令行或使用API获取识别字符的字体,即它们是Arial还是Times New Roman。 我正在扫描可能包含具有不同字体的不同部分的文档,拥有此信息将非常有用。 推荐答案 Tesseract有一个在ResultIterator类中定义的WordFontAttributes函数可以使用。 ..
发布时间:2022-07-15 16:52:10 其他开发

如何检测图像中是否包含ASCII字符?

我有一个图像数据集,我想过滤掉所有包含文本(ASCII字符)的图像。例如,我有一个可爱的狗狗形象: 如您所见,右下角有一段文字&2003年5月18日,因此应将其过滤掉。 经过一番研究,我发现了tesseractOCR。在python中,我有以下代码: # Attempt 1 img = Image.open('n02086240_1681.jpg') text = pytesse ..
发布时间:2022-04-12 13:27:52 Python

如何将R输出数据保存到文本文件中

希望您一切顺利。 我的问题可能已经被其他人回答了,但由于我找不到相关的答案,所以我在这里写了一篇帖子。 问题 如何将R输出保存到文本文件。 我使用R从扫描的PDF中提取数据,但我的输出在控制台中,我想将其保存为文本文件。如果你有什么建议,请让我知道。 我的代码如下 library (tesseract) filename= 'my_file.pdf' file ..
发布时间:2022-04-12 13:25:55 其他开发

如何改进CAPCTHA解码的pytesseract功能?

我想从python中的图像中提取数字。为了做到这一点,我选择了pytesseract。当我尝试从图像中提取文本时,结果并不令人满意。我还检查了以下代码,并实现了与其他答案一起列出的所有技术。然而,它似乎表现不佳。 示例图片: 我的代码是: import cv2 as cv import pytesseract from PIL import Image import matplo ..
发布时间:2022-03-27 15:53:32 Python

如何在使用tesseract-4.0进行文本提取时保留图像中的所有空格?

我正在使用tesseract-ocr 4.0从图像中提取表格文本,并在保持数据对齐的同时将结果导出到Excel中。 我希望在提取的表中保持图像中的所有空间不变。但OCR会跳过许多前导空格和尾随空格,并将其删除。 我有一些图像,在某些位置,表中出现空格。我在tesseract中使用了保留空白选项,但OCR仍然跳过了很多空格。 在使用OCR进行提取时,有没有办法检测或保留表中的所有空 ..
发布时间:2022-03-27 15:48:55 Python

Tesseract OCR将斜杠0混淆为8

我已经训练tesseract使用终结点字体,但无论如何,我都无法让它识别0。我正在使用jTessEditor创建培训tif和盒子。即使在验证时,它也会将全0读作8。我有什么遗漏的吗? 这里是0的一个示例,它将其读取为8: 我使用以下参数: --psm 10 -c tessedit_char_whitelist=0123456789# --oem 3 -l terminus ..
发布时间:2022-03-27 15:44:18 Python

对带有背景的图像进行倾斜(Python)

我正在处理一个项目,在该项目中,我正在对标签上的文本进行OCR。我的工作是对图像进行倾斜,使其可用tesseract读取。 我一直在使用this approach,对图片进行灰度和阈值处理,获取黑色像素坐标,在其周围绘制minAreaRect,然后根据此矩形的倾斜角度校正倾斜。这适用于,但不适用于具有背景的图像,如所显示的图像。在那里,它计算的倾斜角度为0.0,并且不旋转图像。(预期结果:1 ..
发布时间:2022-03-27 15:38:41 Python

如何增强Tesseract的OCR自动文本旋转功能?

我有一组PIL图像,其中一些页面被正确旋转,而另一些页面的旋转接近180°。这意味着自动方向检测可能会失败,因为不是178°识别2°方向。 遗憾的是,Tesseract有时无法识别2°方向和178°之间的差异,因此在后一种情况下,输出完全错误。 简单的im.rotate(180)可以自动修复这个问题,但该步骤是手动的,我希望tesseract自动了解文本是否颠倒。 看一下一些方法,它们需要 ..

Pytesseract集字符白名单

有人知道如何设置Pytesseract的字符白名单吗?我希望它只输出A-z和0-9。这个是可能的吗?我有以下内容: img = Image.open('test.jpg') result = pytesseract.image_to_string(img, config='-psm 6') 我正在为%1获取其他字符,如/,所以我想限制可能的字符选项。 推荐答案 您可以使用以下 ..
发布时间:2022-03-27 15:20:00 Python

在 iphone 中实现 tesseract OCR

我想在我的项目中实现手写识别 例如当用户在屏幕上写A,那么屏幕应该显示A, 我在 google 上搜索过,到目前为止我找到了 tesseract OCR,但我不知道什么是 tesseract OCR 以及如何在我的项目中实现这一点有人给出了 tesseract OCR 的演示教程,我不知道 tesseract OCR 是免费的还是付费的... 谁能提供关于 tesseract O ..
发布时间:2022-01-14 20:26:01 移动开发

无法加载库“tesseract":libtesseract.so:无法打开共享对象文件:没有这样的文件或目录

我的 MBP 上运行 tesseract 和 Tess4J 有一段时间了.今天我开始将我的应用程序迁移到服务器并开始在服务器上安装所有内容.在 tomcat 中运行 Tess4J 之前,我尝试运行一个简单的 java 程序以确保一切正常.这不是…… 我在 centOS 64 位服务器上 我已经安装了 tesseract 并且它工作正常 - tesseract myimage.jpg myt ..
发布时间:2022-01-13 21:07:57 Java开发

在 CentOS 6 上安装 Tesseract-OCR

我正在尝试在我的服务器上安装 Tesseract-OCR,但是当我安装所有我认为正确的存储库时.当我尝试安装它时,找不到包 我尝试添加 rpmforge 但无济于事.以前做过或熟悉通过 repos 添加和搜索的人有什么想法吗? 解决方案 我使用了这些在 Centos 中正常工作的指令 从 Centos 中的源安装 Tesseract OCR 库 下载 Leptonica ..
发布时间:2022-01-13 21:03:09 其他开发

如何在 Android 中使用 Tesseract?

我在网上搜索了几个小时.我得到了很多答案,说我们需要为 WINDOWS 的“Tesseract"使用 NDK 等. 但是我没有得到任何关于安装 NDK 时应该做什么的分步/正确解释.如何获取 .so 文件?我已经完成了 NDK 和 Cygwin 的安装.为了检查它是否正确完成,我输入了 make -v 并给出了预期的输出. 任何使用过“Tesseract"的人都可以告诉我他们是如何做到 ..
发布时间:2022-01-10 23:30:58 移动开发

如何在 Tesseract 和 OpenCV 之间进行选择?

我最近遇到了 Tesseract 和 OpenCV.看起来 Tesseract 是一个成熟的 OCR 引擎,OpenCV 可以用作创建 OCR 应用程序/服务的框架. 我尝试在我的一些图像上使用 Tesseract,它的准确性似乎不错.后来偶然发现了一个非常简单的教程关于使用OpenCV来执行使用 Python 进行 OCR 并印象深刻.几分钟后,我完成了系统的训练,它的准确性很好.但是,当 ..
发布时间:2022-01-09 18:27:44 Python