python-tesseract相关内容

如何在进行OCR之前验证图像是否包含背景噪声

我需要从几种类型的图像中提取文本。 我可以根据背景的噪声将图像手动分类为3类: 无噪音的图像。 背景中有一些轻微噪音的图像。 背景噪音很大。 对于类别1的图像,我可以毫不费力地应用OCR。→基本大小写。 对于第二类图像和一些第三类图像,我可以通过应用以下方法来提取文本: 灰度、高斯模糊、大津阈值 变形打开以消除噪点并反转图像 →然后执行文本提取。 对于OCR任务 ..

如何检测图像中是否包含ASCII字符?

我有一个图像数据集,我想过滤掉所有包含文本(ASCII字符)的图像。例如,我有一个可爱的狗狗形象: 如您所见,右下角有一段文字&2003年5月18日,因此应将其过滤掉。 经过一番研究,我发现了tesseractOCR。在python中,我有以下代码: # Attempt 1 img = Image.open('n02086240_1681.jpg') text = pytesse ..
发布时间:2022-04-12 13:27:52 Python

如何改进CAPCTHA解码的pytesseract功能?

我想从python中的图像中提取数字。为了做到这一点,我选择了pytesseract。当我尝试从图像中提取文本时,结果并不令人满意。我还检查了以下代码,并实现了与其他答案一起列出的所有技术。然而,它似乎表现不佳。 示例图片: 我的代码是: import cv2 as cv import pytesseract from PIL import Image import matplo ..
发布时间:2022-03-27 15:53:32 Python

使用Python从扫描的pdf中提取PDF数据

我正在用tesseract OCR从扫描的pdf中提取数据,我能够提取数据,但精度不是很好。在很多地方,它显示错误的数据,所以我可以100%准确地获取数据。 首先我将pdf转换为jpg格式,然后使用tesseract模块从图像中提取数据。 from PIL import Image import pytesseract text=(pytesseract.image_to_strin ..
发布时间:2022-03-27 15:50:42 其他开发

如何从图像中提取虚线文本?

我正在做我的学士学位期末项目,我想创建一个OCR用于使用蟒蛇进行瓶子检查。我需要一些图像的文本识别的帮助。我是需要以更好的方式应用CV2操作,还是应该尝试其他方法? 我尝试对图像执行图像处理操作,并使用pytesseract识别字符。 使用我从这张照片中获得的以下代码: 到此: 然后转到这个: 锐化功能: def sharpen(img): sharpen ..
发布时间:2022-03-27 15:46:25 Python

对带有背景的图像进行倾斜(Python)

我正在处理一个项目,在该项目中,我正在对标签上的文本进行OCR。我的工作是对图像进行倾斜,使其可用tesseract读取。 我一直在使用this approach,对图片进行灰度和阈值处理,获取黑色像素坐标,在其周围绘制minAreaRect,然后根据此矩形的倾斜角度校正倾斜。这适用于,但不适用于具有背景的图像,如所显示的图像。在那里,它计算的倾斜角度为0.0,并且不旋转图像。(预期结果:1 ..
发布时间:2022-03-27 15:38:41 Python

如何增强Tesseract的OCR自动文本旋转功能?

我有一组PIL图像,其中一些页面被正确旋转,而另一些页面的旋转接近180°。这意味着自动方向检测可能会失败,因为不是178°识别2°方向。 遗憾的是,Tesseract有时无法识别2°方向和178°之间的差异,因此在后一种情况下,输出完全错误。 简单的im.rotate(180)可以自动修复这个问题,但该步骤是手动的,我希望tesseract自动了解文本是否颠倒。 看一下一些方法,它们需要 ..

Pytesseract集字符白名单

有人知道如何设置Pytesseract的字符白名单吗?我希望它只输出A-z和0-9。这个是可能的吗?我有以下内容: img = Image.open('test.jpg') result = pytesseract.image_to_string(img, config='-psm 6') 我正在为%1获取其他字符,如/,所以我想限制可能的字符选项。 推荐答案 您可以使用以下 ..
发布时间:2022-03-27 15:20:00 Python

如何使用 Pytesseract 提取图像中的小数点

上面是图片,我已经尝试了从 SO 或 google 获得的一切,似乎没有任何效果.我无法在图像中得到确切的值,我应该得到 2.10,而不是总是得到 210. 并且不仅限于此图像,只有在数字 1 tesseract 之前具有小数的任何图像都会忽略十进制值. def returnAllowedAmount(self,imgpath):th = 127最大值 = 255img = cv2.im ..

从图像python中识别明文

我使用 pytesseract 从图像中识别文本 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 然后我用下面的代码来识别文本 textImg = pytesseract.image_to_string(Image.open(imgLoc+"/"+imgName)) ..
发布时间:2022-01-02 17:38:23 Python

OSError: [Errno 2] 没有这样的文件或目录使用 pytesser

这是我的问题,我想用pytesser来获取图片的内容.我的操作系统是Mac OS 10.11,我已经安装了PIL、pytesser、tesseract-ocr引擎以及libpng等其他支持库.但是当我运行我的代码时,如下所示,发生错误. from pytesser import *导入操作系统image = Image.open('/Users/Grant/Desktop/1.png')文本 = ..
发布时间:2021-12-26 13:02:04 Python

提高 Python Tesseract OCR 的准确性

我正在使用 pytesseract 和 openCV 在 Python 中的一个简单 django 应用程序中,用于从图像文件中提取孟加拉语文本.我有一个表单,可让您上传图像,并在单击提交按钮时通过 jQuery 中的 ajax 调用将其发送到服务器端,以从图像中提取文本以实现 OCR(光学字符识别)的目的. 模板部分: ..
发布时间:2021-12-10 21:01:46 其他开发

使用 Opencv 检测图像中的文本区域

我有一张图片,想检测其中的文本区域. 我尝试了 TiRG_RAW_20110219 项目,但结果并不令人满意.如果输入图像是 http://imgur.com/yCxOvQS,GD38rCa 它正在生成 http://imgur.com/yCxOvQS,GD38rCa#1 作为输出. 任何人都可以提出一些替代方案.我希望通过仅将文本区域作为输入发送来改进 tesseract 的输出. ..
发布时间:2021-12-07 10:53:43 Python

无法让 tesseract 在 python 上工作

当我尝试在 jupyter notebook 或 pycharm 上使用 tesseract 运行代码时遇到了一些问题.我怀疑是 Windows 7 上的安装问题,但我不确定我做错了什么. 所以我尝试了很多不同的方法,从 pip install tesseract 和 pytesseract 到安装 tesseract OCR(起初我认为这只是一个库,这就是我搞砸了顺序的原因),如下所示:h ..
发布时间:2021-09-06 18:35:53 Python