tesseract 第7页 - IT屋-程序员软件开发技术分享社区

如何使用 OCR 检测图像中的下标数字?

我通过 pytesseract 绑定将 tesseract 用于 OCR.不幸的是，我在尝试提取包含下标样式数字的文本时遇到了困难 - 下标数字被解释为一个字母. 例如在基本图像中: 我想将文本提取为“CH3"，即我不担心知道数字 3 是图像中的下标. 我使用 tesseract 对此的尝试是: 导入 cv2导入 pytesseractimg = cv2.imread('tes ..

具有表格或行的文档的 Tesseract OCR 文本顺序

我正在使用 Tesseract OCR 将扫描的 PDF 转换为纯文本.总体而言，它非常有效，但我对扫描文本的顺序有疑问.当看起来更自然的方式是逐行扫描时，带有表格数据的文档似乎是逐列向下扫描的.一个非常小的例子是: 这是A列第1行这是B列第1行这是C列第1行这是A列第2行这是B列第2行这是C列第2行正在产生以下文本: 这是A列第1行这是 A 列第 2 行这是 B 列第 1 行这是 B ..

发布时间：2021-06-12 18:35:32 ocr tesseract 其他开发

通过 pytesseract & 提高文本识别的准确性PIL

所以我想从图像中提取文本.并且由于图像的质量和大小不佳，因此给出的结果不准确.我尝试使用 PIL 进行了一些增强和其他操作，但这只会降低图像质量. 有人可以建议对图像进行一些增强以获得更好的结果.图片示例: 解决方案在提供的图像示例中，文本在视觉上的质量非常好，所以问题是 OCR 给出的结果不准确是怎么回事? 为了说明这个答案的进一步文本中给出的结论，让我们运行给定的图像 ..

发布时间：2021-06-12 18:35:29 python-3.x python-imaging-library ocr tesseract pytesser 其他开发

Google Cloud Vision API 是否检测 OCR 文本中的格式，如粗体、斜体、字体名称(黑体或新罗马)等?

敏捷的棕色狐狸跳过懒惰的狗在这种情况下，假设也有不同的字体系列，cloud VIsion API 可以检测到这一点.或者任何其他 OCR API 都能干净地检测到这一点.Tesseract 有能力，但它太不准确了. 解决方案谷歌云视觉 API 是否检测 OCRed 文本中的格式，如粗体、斜体、字体名称(helvetica 或 times new roman)等? 不幸的 ..

发布时间：2021-06-12 18:35:25 ocr tesseract google-cloud-vision abbyy abbyy-cloud-ocr 其他开发

为什么pytesseract不能识别个位数?

我正在一个网站上执行 ocr，特别是在这两个图像上: 我对 OCR 相当陌生，我使用以下内容: from PIL 导入图片导入 pytesseractmy_image = '....png'文本 = pytesseract.image_to_string(Image.open(my_image)) 在第二张图片中，它可以识别除单个数字 3、4、5、6 之外的所有内容. 在第一张图片 ..

发布时间：2021-06-12 18:35:22 python ocr tesseract python-tesseract Python

带有Tess4j的Tesseract 3.0使Linux服务器上的应用程序崩溃

我在Java应用程序中将Tess4j 3.0.0与Tesseract 3.04一起使用.在我的应用程序中，我为OCR创建了一个服务，该服务实现了Runnable. 应用程序已在Centos 6中部署以下代码已投入使用. Tesseract1实例= new Tesseract1();结果= instance.doOCR("pathtodocument/abc.pdf"); 我应 ..

发布时间：2021-05-29 23:05:16 java linux tesseract Java开发

在iphone中获取tesseract Ocr中的文本位置

使用tesseract我已经提取了文本iPhone.现在要提取文本以及xml中的文本位置.我使用GetHocrText来检索HTML中的文本. 例如:- ..

发布时间：2021-05-17 19:47:27 iphone tesseract 移动开发

Tesseract OCR无法识别除法符号“÷".

我正在将iOS 8中的Tesseract用于基于OCR的应用程序，但是它错误地将图像中的“÷"符号转换为加号"+". 例如，这张图片我尝试过的所有操作始终返回加号"+"而不是除号“÷". 我尝试仅使用经过训练的"equ"数据文件，并且DOES正确返回了分隔符号-但是所有其他字符都将变成垃圾. 我已经研究了好几天(Google，Stackoverflow)，无法解决. ..

发布时间：2021-05-16 20:55:58 ios objective-c ocr tesseract 移动开发

在通过pytesseract ocr模块之前是否可以检查图像的方向

对于我当前的ocr项目，我尝试使用tesserect使用python封面pytesseract将图像转换为文本文件.到现在为止，我只将面向直线的图像传递到我的模块中，因为它能够正确找出该图像中的文本.但是现在当我传递旋转的图像时，它甚至无法识别一个单词.因此，要获得良好的效果，我只需要以正确的方向传递图像.现在，我想知道在将图像传递到ocr模块之前，是否有任何方法可以弄清楚图像的方向.请让我知道我 ..

发布时间：2021-05-15 20:30:58 image-processing ocr tesseract python-tesseract 其他开发

删除边框线上方的图像顶部以检测文本文档

使用OpenCV(python)，我试图在下图所示的图像中删除边界线上方的图像部分(此示例图像中的白色区域，原始位置被扭曲). ..

发布时间：2021-05-15 20:29:14 python opencv image-processing ocr tesseract Python

tesseract可以接受非字体符号的培训吗?

我很好奇如何才能更可靠地识别出扑克牌图像的价值和适合程度.这是两个示例: 新数据集图像分类我将其指向我的卡文件夹，例如:/path/to/card 根据此处的讨论，我将验证百分比设置为13.0％: https://stackoverflow.com/a/13612921/880837 创建数据集后，我打开了“模型"选项卡选择我的新数据集. 选择“标准网络"下的GoogLeN ..

发布时间：2021-05-15 20:09:32 image macos ocr tesseract 其他开发

更改图像DPI以用于tesseract

我正在一个项目中识别名片中的文本并将其映射到适当的字段.我正在使用opencv进行图像处理.我需要将预处理后的图像馈送到Tesseract-OCR引擎以进行文本识别."https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#rescaling" rel ="noreferrer">此链接指出图片的DPI至少应为300.我的图片像 ..

发布时间：2021-05-02 20:37:22 opencv image-processing ocr tesseract dpi 其他开发

在Docker中进行容器化时出现TesseractNotFound问题

问题: 我在本地计算机上安装了 tesseract ，其路径位于/usr/local/Cellar/tesseract/4.1.1/bin/tesseract .一切工作正常，直到我在docker中将其容器化并显示以下错误消息: pytesseract.pytesseract.TesseractNotFoundError:尚未安装或不是您的PATH 我尝试过的事情: 根据错误消息 ..

发布时间：2021-05-02 19:23:47 python python-3.x docker dockerfile tesseract Python

如何旋转图像以对齐要提取的文本?

我正在使用pytessearct从图像中提取文本.但它不适用于倾斜的图像.考虑下面给出的图像: 这里是提取文本的代码，在不倾斜的图像上效果很好. img = cv2.imread()灰色= cv2.cvtColor(img，cv2.COLOR_BGR2GRAY)模糊= cv2.GaussianBlur(灰色，(5,5)，0)ret3，thresh = cv ..

发布时间：2021-04-23 20:25:28 python opencv machine-learning computer-vision tesseract AI人工智能

如何从复杂的验证码中提取数字

我正在尝试为以下图片解析验证码！ https://ibb.co/35X723J 我尝试过使用tessaract data = br.open(captchaurl).read()b =字节数组(数据)保存=打开(文件名，'wb')save.write(数据)save.close()ctext = pytesseract.image_to_string(Image.open(文件名 ..

发布时间：2021-04-21 19:24:33 python tesseract captcha python-tesseract Python

使用tesseract和opencv的cMakefile

我是cmake的新手，我正在编写一个使用tesseract的应用程序.g ++命令行工作正常 g ++ -O3 -std = c ++ 11`pkg-config --cflags --libs tesseract opencv` my_first.cpp -o my_first 但是我写了以下CMakeFile.txt并在Clion中构建，它引发了许多链接错误 cmake_minim ..

发布时间：2021-04-20 18:52:34 c++ opencv c++11 cmake tesseract C/C++开发

Tesseract总是在图片中缺少文本行

我正在尝试使用OCR从图片中提取数据.我使用C ++中的Tesseract API来实现这一目标. 原始图片是这样的: 现在对我来说重要的数据是: 但是，永远不会识别出标记的蓝线与我尝试执行的操作无关. 使用tesseract分析图片的代码如下: std :: string readFromFile(const std :: string& filename){tess ..

发布时间：2021-04-19 19:40:41 c++ opencv ocr tesseract C/C++开发

Visual Studio 2015和x64上的tesseract 3.05

好吧，我真的需要这里的帮助.我的问题是如何将tesseract 3.05和leptonica 1.73库添加到Visual Studio 2015 x64(Windows 10). 去年夏天，我设法使用Visual Studio 2013以及较早版本的leptonica和tesseract进行了此操作，因为这很容易，并且所有包含lib的文件都在其中，我只需要提供路径并下载一些dll.但是现在 ..

发布时间：2021-04-19 19:34:17 c++ visual-studio-2015 tesseract leptonica C/C++开发

在tesseract C ++ API中禁用字典辅助的OCR

我有一个使用tesseract API对技术数据表进行OCR的应用程序.我这样初始化它: tesseract :: TessBaseAPI tess;tess.Init(NULL，"eng"，tesseract :: OEM_TESSERACT_ONLY); 但是，即使使用了这样的自定义白名单 tess.SetVariable("tessedit_char_blacklist"，“") ..

发布时间：2021-04-08 20:49:10 c++ api ocr tesseract C/C++开发

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆pdf文件，有些是可搜索的常规pdf文件，有些是一些无法搜索的文档的扫描版本.我想提取每个pdf的内容.要提取常规pdf的内容，请使用 Apache Tika ，并从我正在使用的不可搜索的内容中提取内容 tesseract-ocr .但是，我需要区分哪个pdf是标准pdf，哪个不是.有什么办法吗? 解决方案这将为您提供帮助，公共静态布尔isSearchablePdf(Stri ..

发布时间：2021-04-08 20:33:08 java pdf ocr tesseract apache-tika Java开发

tesseract相关内容