python-tesseract - IT屋-程序员软件开发技术分享社区

如何在数据库上安装Tesseract OCR

我正尝试在一台Datarick Python笔记本电脑上运行以下脚本： pip install presidio-image-redactor pip install pytesseract python -m spacy download en_core_web_lg from PIL import Image from presidio_image_redactor import Im ..

发布时间：2022-08-11 19:17:45 tesseract databricks azure-databricks python-tesseract 其他开发

如何在进行OCR之前验证图像是否包含背景噪声

我需要从几种类型的图像中提取文本。我可以根据背景的噪声将图像手动分类为3类：无噪音的图像。背景中有一些轻微噪音的图像。背景噪音很大。对于类别1的图像，我可以毫不费力地应用OCR。→基本大小写。对于第二类图像和一些第三类图像，我可以通过应用以下方法来提取文本：灰度、高斯模糊、大津阈值变形打开以消除噪点并反转图像 →然后执行文本提取。对于OCR任务 ..

发布时间：2022-07-20 17:49:54 opencv image-processing background-process python-tesseract noise-reduction 其他开发

如何检测图像中是否包含ASCII字符？

我有一个图像数据集，我想过滤掉所有包含文本(ASCII字符)的图像。例如，我有一个可爱的狗狗形象：如您所见，右下角有一段文字&2003年5月18日，因此应将其过滤掉。经过一番研究，我发现了tesseractOCR。在python中，我有以下代码： # Attempt 1 img = Image.open('n02086240_1681.jpg') text = pytesse ..

发布时间：2022-04-12 13:27:52 python image-processing ocr tesseract python-tesseract Python

Python-Tesseract-识别此验证码

我正在尝试解析验证码的文本，但不幸的是，它并不完美。我在Windows 10 x64下使用的是pytesseract 0.3.8、Python3.9和tesseract v5.0.0-alpha.20210506。 Captcha1 Captcha2 Captcha3 我的代码： image = Image.open(path).convert('RGB') ..

发布时间：2022-04-12 13:23:39 tesseract captcha python-tesseract 其他开发

如何改进CAPCTHA解码的pytesseract功能？

我想从python中的图像中提取数字。为了做到这一点，我选择了pytesseract。当我尝试从图像中提取文本时，结果并不令人满意。我还检查了以下代码，并实现了与其他答案一起列出的所有技术。然而，它似乎表现不佳。示例图片：我的代码是： import cv2 as cv import pytesseract from PIL import Image import matplo ..

发布时间：2022-03-27 15:53:32 python opencv ocr tesseract python-tesseract Python

使用Python从扫描的pdf中提取PDF数据

我正在用tesseract OCR从扫描的pdf中提取数据，我能够提取数据，但精度不是很好。在很多地方，它显示错误的数据，所以我可以100%准确地获取数据。首先我将pdf转换为jpg格式，然后使用tesseract模块从图像中提取数据。 from PIL import Image import pytesseract text=(pytesseract.image_to_strin ..

发布时间：2022-03-27 15:50:42 python-3.x ocr python-tesseract pdfminer pdf-extraction 其他开发

如何从图像中提取虚线文本？

我正在做我的学士学位期末项目，我想创建一个OCR用于使用蟒蛇进行瓶子检查。我需要一些图像的文本识别的帮助。我是需要以更好的方式应用CV2操作，还是应该尝试其他方法？我尝试对图像执行图像处理操作，并使用pytesseract识别字符。使用我从这张照片中获得的以下代码：到此：然后转到这个：锐化功能： def sharpen(img): sharpen ..

发布时间：2022-03-27 15:46:25 python opencv image-processing ocr python-tesseract Python

对带有背景的图像进行倾斜(Python)

我正在处理一个项目，在该项目中，我正在对标签上的文本进行OCR。我的工作是对图像进行倾斜，使其可用tesseract读取。我一直在使用this approach，对图片进行灰度和阈值处理，获取黑色像素坐标，在其周围绘制minAreaRect，然后根据此矩形的倾斜角度校正倾斜。这适用于，但不适用于具有背景的图像，如所显示的图像。在那里，它计算的倾斜角度为0.0，并且不旋转图像。(预期结果：1 ..

发布时间：2022-03-27 15:38:41 python opencv ocr tesseract python-tesseract Python

使用python突出显示图像中的特定文本

我想突出显示网站截图中的特定单词/句子。截图之后，我使用pytesseract和cv2提取文本。它工作得很好，我可以获得有关它的文本和数据。 import pytesseract import cv2 if __name__ == "__main__": img = cv2.imread('test.png') img = cv2.cvtColor(img, cv2. ..

发布时间：2022-03-27 15:36:28 python-3.x computer-vision ocr python-tesseract 其他开发

如何增强Tesseract的OCR自动文本旋转功能？

我有一组PIL图像，其中一些页面被正确旋转，而另一些页面的旋转接近180°。这意味着自动方向检测可能会失败，因为不是178°识别2°方向。遗憾的是，Tesseract有时无法识别2°方向和178°之间的差异，因此在后一种情况下，输出完全错误。简单的im.rotate(180)可以自动修复这个问题，但该步骤是手动的，我希望tesseract自动了解文本是否颠倒。看一下一些方法，它们需要 ..

发布时间：2022-03-27 15:28:38 python-imaging-library ocr tesseract python-tesseract 其他开发

Pytesseract集字符白名单

有人知道如何设置Pytesseract的字符白名单吗？我希望它只输出A-z和0-9。这个是可能的吗？我有以下内容： img = Image.open('test.jpg') result = pytesseract.image_to_string(img, config='-psm 6') 我正在为%1获取其他字符，如/，所以我想限制可能的字符选项。推荐答案您可以使用以下 ..

发布时间：2022-03-27 15:20:00 python ocr tesseract python-tesseract Python

(-215：断言失败)cv：：imread函数'；cv：：cvtColor'；中的！_src.Empty()

我正在尝试从图像中识别文本，然后将文本输出；但是，此错误显示为：回溯(最近一次呼叫)：文件“C：/Users/Benji的Beast/AppData/Local/Programs/Python/Python37-32/imageDet.py”，行41，位于 print(get_string(src_path+“cont.jpg”)) 文件“C：/Users/Benji的Beast/Ap ..

发布时间：2022-03-27 15:12:54 python ocr tesseract cv2 python-tesseract Python

如何在没有 sudo 的情况下为 Python 安装包时避免权限被拒绝

我正在尝试以用户 mike 的身份安装 Python 的 tesseract 包装器，以便我可以 import tesseract.我在这里遵循指南 https://code.google.com/p/python-tesseract/wiki/HowToCompilePythonTesseractForCentos 但是，当我执行 python setup.py install 我收 ..

发布时间：2022-01-13 21:17:42 python centos tesseract python-tesseract Python

如何使用 Pytesseract 提取图像中的小数点

上面是图片，我已经尝试了从 SO 或 google 获得的一切，似乎没有任何效果.我无法在图像中得到确切的值，我应该得到 2.10，而不是总是得到 210. 并且不仅限于此图像，只有在数字 1 tesseract 之前具有小数的任何图像都会忽略十进制值. def returnAllowedAmount(self,imgpath):th = 127最大值 = 255img = cv2.im ..

发布时间：2022-01-09 18:49:26 python opencv image-processing computer-vision python-tesseract Python

我使用 pytesseract 从图像中识别文本 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 然后我用下面的代码来识别文本 textImg = pytesseract.image_to_string(Image.open(imgLoc+"/"+imgName)) ..

发布时间：2022-01-02 17:38:23 python nlp ocr python-tesseract Python

OSError: [Errno 2] 没有这样的文件或目录使用 pytesser

这是我的问题，我想用pytesser来获取图片的内容.我的操作系统是Mac OS 10.11，我已经安装了PIL、pytesser、tesseract-ocr引擎以及libpng等其他支持库.但是当我运行我的代码时，如下所示，发生错误. from pytesser import *导入操作系统image = Image.open('/Users/Grant/Desktop/1.png')文本 = ..

发布时间：2021-12-26 13:02:04 python error-handling python-tesseract pytesser Python

使用 python-tesseract 获取已识别单词的边界框

我正在使用 python-tesseract 从图像中提取单词.这是 tesseract 的 Python 包装器，它是一个 OCR 代码. 我正在使用以下代码来获取单词: 导入tesseractapi = tesseract.TessBaseAPI()api.Init(".","eng",tesseract.OEM_DEFAULT)api.SetVariable("tessedit_ch ..

发布时间：2021-12-18 11:11:05 python image-processing ocr tesseract python-tesseract Python

提高 Python Tesseract OCR 的准确性

我正在使用 pytesseract 和 openCV 在 Python 中的一个简单 django 应用程序中，用于从图像文件中提取孟加拉语文本.我有一个表单，可让您上传图像，并在单击提交按钮时通过 jQuery 中的 ajax 调用将其发送到服务器端，以从图像中提取文本以实现 OCR(光学字符识别)的目的. 模板部分: ..

发布时间：2021-12-10 21:01:46 django opencv ocr tesseract python-tesseract 其他开发

使用 Opencv 检测图像中的文本区域

我有一张图片，想检测其中的文本区域. 我尝试了 TiRG_RAW_20110219 项目，但结果并不令人满意.如果输入图像是 http://imgur.com/yCxOvQS,GD38rCa 它正在生成 http://imgur.com/yCxOvQS,GD38rCa#1 作为输出. 任何人都可以提出一些替代方案.我希望通过仅将文本区域作为输入发送来改进 tesseract 的输出. ..

发布时间：2021-12-07 10:53:43 python image opencv image-processing python-tesseract Python

无法让 tesseract 在 python 上工作

当我尝试在 jupyter notebook 或 pycharm 上使用 tesseract 运行代码时遇到了一些问题.我怀疑是 Windows 7 上的安装问题，但我不确定我做错了什么. 所以我尝试了很多不同的方法，从 pip install tesseract 和 pytesseract 到安装 tesseract OCR(起初我认为这只是一个库，这就是我搞砸了顺序的原因)，如下所示:h ..

发布时间：2021-09-06 18:35:53 python jupyter-notebook tesseract python-tesseract Python

python-tesseract相关内容