tesseract相关内容

从图像python中识别数字

我正在尝试从游戏截图中提取数字. 我正在尝试提取: 98 3430 5/10 from PIL 导入图片导入 pytesseractimage="D:/img/新建文件夹(2)/1.png"pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'text = pyt ..
发布时间:2021-06-12 19:41:28 Python

如何将 pytesseract 部署到 Heroku

我有一个 Python 应用程序,它在我的机器上通过 Localhost 写得很好. 我正在尝试将其部署到 Heroku.然而,这似乎不可能实现(我现在已经花了大约 30 个小时尝试). 问题是 Tesseract OCR.我正在使用 pytesseract 包装器,我的代码利用了它.但是,无论我尝试什么,在将pytesseract上传到Heroku时似乎都无法使用它. 有人可以 ..
发布时间:2021-06-12 19:39:10 其他开发

Pytesseract 提高 OCR 准确性

我想从 python 中的图像中提取文本.为了做到这一点,我选择了 pytesseract.当我尝试从图像中提取文本时,结果并不令人满意.我还经历了this并实施了列出的所有技术.然而,它似乎表现不佳. 图片: 代码: 导入pytesseract导入 cv2将 numpy 导入为 npimg = cv2.imread('D:\\wordsimg.png')img = cv2.resi ..
发布时间:2021-06-12 18:37:09 Python

训练tesseract - shapeclustering问题

我正在尝试按照此处找到的说明训练 tesseract(添加新的纯数字字体):http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 我所做的: 使用示例文本创建 PDF,转换为 tif,运行 tesseract num.dot.exp0.tif num.dot.exp0 batch.nochop makebox 数字 ..
发布时间:2021-06-12 18:37:06 其他开发

Pyinstaller 和 Tesseract OCR

我正在为我的程序使用 Tesseract OCR,我将使用 pyinstaller 将其转换为单个 .exe 文件.问题是,为了使 Tesseract 能够工作,我需要引用我计算机上安装的程序的路径,如下所示:pytesseract.pytesseract.tesseract_cmd = 'E:\\Tesseract-OCR\\tesseract' 由于这不仅仅是一个可以导入的单独库,而是一 ..
发布时间:2021-06-12 18:36:41 Python

如何提高OCR准确率?

我有 2 张图片,如下所示.A.png 被 tesseract 完美读取,但 B.png 的准确性非常差,即使 B.png 与 A.png 相似.我怎样才能提高准确性?我不知道从哪里开始调试? A.png B.png 运行 OCR # tesseract -v超立方体 4.1.1-rc2-22-g08899 # tesseract A.png stdout -l jpn ..
发布时间:2021-06-12 18:36:33 其他开发

使用配置文件对 Tesseract 3.02 的字符置信度

如何获得检测到的每个字符的 % 置信度?通过四处搜索,我发现您应该将 save_blob_choices 设置为 T.所以我将它添加到 tessdata/configs 中的 hocr 配置文件中的一行,并用它调用 tesseract.这就是我在生成的 html 文件中得到的全部内容: ..
发布时间:2021-06-12 18:36:26 其他开发

为什么 Pytesseract 不能识别黑底白字?

我有很多像下面这样的图像,我需要使用 pytesseract 来抓取白色文本: 我使用以下代码,但结果并不令人印象深刻: 导入pytesseract从 PIL 导入图像pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'im = Image.open('topLine ..
发布时间:2021-06-12 18:36:23 Python

选择使用 Tesseract OCR 提取的文本部分

我在 R 中使用最新的 Tesseract OCR 引擎从几张图像中提取文本.它工作得很好,我对结果很满意.问题是我不想要全文,只想要一部分,但我不知道如何提取. 代码是这样的: library("tesseract")图书馆(“pdftools")图书馆(“魔术师")mypdfFile ..
发布时间:2021-06-12 18:36:17 其他开发

Tesseract OCR:解析表格单元格

我正在使用 cmd 中的 Tesseract-OCR v4.0.0 (alpha?) 从下表的 png 中提取文本: 我想让 Tesseract-OCR 解析一个单元格中的内容,然后再转到下一个单元格.我不想转到“行"中的下一个单词. 预期: ...约翰史密斯 2017 年 3 月 7 日芝加哥密尔沃基底特律太平洋... 实际: ...约翰史密斯 2017 年 3 月 ..
发布时间:2021-06-12 18:36:08 其他开发

Tesseract OCR 如何改善结果?

我在使用 Tesseract 时遇到了困难,有没有办法提高准确性?如果需要,我如何为自己训练? 我唯一要做的就是阅读以下字符,XYZ:-0123456789就是这样!图片总是那样. 谢谢! 解决方案 Tesseract 4.00alpha 与您的图像的输出是 $ tesseract ICKcj.png - -l eng*:4606 是;4809 Z;698警告.无效的分辨率 ..
发布时间:2021-06-12 18:36:05 其他开发

Tesseract OCR 水平读取而不是垂直读取 C#

我们有一个 C# .Net 应用程序,它使用 Tesseract 对 .tiff 文件进行光学字符识别 (OCR).这是一个例子: 然后我们将数据输出到文本文件.但是,Tesseract 以垂直方式读取数据.在我的示例图像中,它将 tiff 读取为两列数据,并且数据是从 Tesseract 输出的数据,如下所示: 类型:日期:地址:城市:状态:所有者:业主类型:面积:抵押:123452 ..
发布时间:2021-06-12 18:35:59 C#/.NET

使用 OCR 识别上标字符

我已经开始了一个简单的项目,它必须获得一个包含带有上标的文本的图像,然后通过使用 OCR(目前我正在使用 tesseract)它必须识别上标字符 + 普通字符. 例如,我们有一个化学方程式,例如 Cl²,但是当我使用 tesseract 识别它时,它给了我 Cl2(全部在一行中). 那么,这个问题的解决方案是什么?有没有其他可以读取上标的OCR API? 解决方案 非常好的问题 ..
发布时间:2021-06-12 18:35:56 其他开发

使tesseract仅识别数字

我正在尝试改进我为读取我正在使用的某个图像的布局而制作的 OCR 程序.现在,我希望我的 OCR 程序只能识别数字 0-9. 我尝试按照问题中的解决方案进行操作: tesseract 正在寻找的限制字符 但是我被困在我必须将tesseract称为: tesseract input.tif 输出nobatch字母 这去哪儿了? 解决方案 我前段时间在 SO 中发布了一些 ..
发布时间:2021-06-12 18:35:53 Python

Tesseract - 错误 net.sourceforge.tess4j.Tesseract - null

创建了一个使用 Tesseract 的 java 应用程序,以便将给定的图像或 pdf 转换为字符串格式,在我的机器上运行它作为使用 junit 的单元测试时,它运行良好,但在运行完整系统时,这是一个 restFul API由接收图像并运行 Tesseract 的 tomcat 运行它给我以下错误: 23:22:36.511 [http-nio-9999-exec-3] 错误net.sour ..
发布时间:2021-06-12 18:35:50 Java开发

如何从包含表格数据的图像中提取数据?

我正在使用 pytesseract、pillow、cv2 对图像进行 OCR 并获取图像中的文本.由于我输入的是扫描的 PDF 文档,我首先将其转换为图像 (JPEG) 格式,然后尝试提取文本.我只走了一半.输入是一个表格,没有显示标题,因为标题有黑色背景.我也尝试过 getstructuringelement 但无法想出办法.这是我到目前为止所做的- 导入 cv2导入操作系统将 numpy 导 ..
发布时间:2021-06-12 18:35:46 Python

从图像中删除 OCR 字(OpenCV,Python)

所以,从我可以开始的.. 我正在使用 OCR.该脚本非常适合我的需要.它可以准确地检测单词,这对我来说还可以. 这是结果:100% 准确率附加图像. from PIL 导入图片导入pyocr.builders导入操作系统os.putenv("TESSDATA_PREFIX", "C:\\Program Files (x86)\\Tesseract-OCR")工具 = pyocr. ..
发布时间:2021-06-12 18:35:41 Python