ocr相关内容

用于 OCR 的 Python OpenCV 歪斜校正

目前,我正在处理一个 OCR 项目,我需要从标签中读取文本(请参见下面的示例图像).我遇到了图像倾斜的问题,我需要帮助修复图像倾斜,以便文本是水平的而不是倾斜的.目前,我正在尝试从给定范围内对不同角度进行评分(代码如下),但这种方法不一致,有时过度校正图像歪斜或平坦无法识别歪斜并纠正它.请注意,在倾斜校正之前,我将所有图像旋转 270 度以使文本直立,然后我通过下面的代码传递图像.传递给函数的图像 ..
发布时间:2021-12-10 20:27:18 Python

分割扫描文档中的文本行

我试图找到一种方法来打破已自适应阈值化的扫描文档中文本行的分割.现在,我将文档的像素值存储为从 0 到 255 的无符号整数,并取每行中像素的平均值,然后根据像素值的平均值是否将这些行拆分为多个范围大于 250,然后我取每个范围的线的中位数.但是,这种方法有时会失败,因为图像上可能会出现黑色斑点. 是否有更抗噪的方法来完成这项任务? 编辑:这是一些代码.“warped"是原始图像的名称 ..
发布时间:2021-12-10 20:16:33 Python

OCR 的字符重建和填充

我正在研究轮胎上的文本识别.为了使用OCR,我必须首先得到一个清晰的二进制图. 我已经处理了图像,文本出现边缘破损和不连续的情况.我已经在 MATLAB 中尝试过使用圆盘和线元素进行标准腐蚀/膨胀,但它并没有真正帮助. Pr1- 关于如何重建这些字符并填补字符笔划之间的空白的任何想法? Pr2- 上面的图像分辨率更高且光照良好.但是,如果如下图所示,照明较差且分辨率相对较低,那么 ..
发布时间:2021-12-08 14:37:22 其他开发

如何使用MATLAB使黑板文字看起来更清晰?

如果我希望最终图像在数字类型外观上更清晰,我应该放置哪些过滤器序列.我的意思是只有两种不同的颜色,一种用于黑板,一种用于粉笔书写. 解决方案 在识别图像中的文本时,最好使用 笔划宽度变换. 这是我在您的图像上获得的一个小结果(基本变换 + 无过滤的连通分量): 基于 此处 的代码的 mex 实现 #include "mex.h"#include #include #incl ..

OpenCV-Python 中的简单数字识别 OCR

我正在尝试在 OpenCV-Python (cv2) 中实现“数字识别 OCR".它仅用于学习目的.我想学习 OpenCV 中的 KNearest 和 SVM 功能. 我有每个数字的 100 个样本(即图像).我想和他们一起训练. OpenCV 示例附带了一个示例 letter_recog.py.但我仍然不知道如何使用它.我不明白样本、响应等是什么.另外,它首先加载一个 txt 文件, ..
发布时间:2021-12-08 08:58:39 Python

为 OCR 训练前馈神经网络

目前我正在学习神经网络,我正在尝试创建一个可以训练识别手写字符的应用程序.对于这个问题,我使用了一个前馈神经网络,当我训练它识别 1、2 或 3 个不同的字符时,它似乎可以工作.但是当我尝试让网络学习超过 3 个字符时,它会停滞在 40 - 60% 左右的错误百分比. 我尝试了多层和更少/更多的神经元,但我似乎无法做到正确,现在我想知道前馈神经网络是否能够识别这么多信息. 一些统计数据 ..

在android中的onPreviewFrame期间转换YUV-> RGB(图像处理)-> YUV?

我正在使用 SurfaceView 捕获图像并在 public void onPreviewFrame4(byte[] data, Camera camera) 中获取 Yuv Raw 预览数据 我必须在 onPreviewFrame 中执行一些图像预处理,所以我需要将 Yuv 预览数据转换为 RGB 数据而不是图像预处理并返回到 Yuv 数据. 我使用这两个函数将 Yuv 数据编码和解 ..
发布时间:2021-11-27 15:20:26 移动开发

Java OCR 实现

这主要只是出于好奇,但是否有纯 Java 中的任何 OCR 实现?我很好奇这将如何在 Java 中执行,而 OCR 总体上让我感兴趣,所以我很想看看它是如何用我完全理解的语言实现的.自然,这将要求实现是开源的,但我仍然对专有解决方案感兴趣,因为我至少可以检查在这种情况下的性能. 我见过一些可以在 Java 中使用的(比如 Asprise),但它没有似乎这些是纯 Java 实现……有吗? ..
发布时间:2021-11-25 14:21:25 Java开发

阿拉伯语开源 OCR 库

我一直在寻找一个 OCR 库 - 最好是开源的 - 我可以在一些阿拉伯语 pdf 上使用它.谷歌搜索它没有产生任何有用的结果.我想知道是否有人知道可以添加阿拉伯语支持的相关 OCR 库,甚至是适用于相关语言(波斯语和乌尔都语可能相关)的 OCR 库. 任何有关如何解决此问题的一般建议将不胜感激. 解决方案 从 3.01 版开始Tessaract-ocr 现在支持阿拉伯语 ..
发布时间:2021-11-17 01:19:35 其他开发

USPS API - 创建标签后检索跟踪号 C#

我已经能够成功地使用 USPS API 创建发货标签.返回的 XML 为我提供了一个交付确认号,但它没有返回跟踪号.跟踪号码是我真正需要的.我用过 (https://www.usps.com/business/web-tools-apis/delivery-confirmation-domestic-shipping-label-api.pdf)作为我如何成功创建标签的基础,但没有地方可以它提到了 ..
发布时间:2021-11-15 04:23:04 C#/.NET

在 tesseract C++ API 中禁用字典辅助 OCR

我有一个使用 tesseract API 对技术数据表进行 OCR 处理的应用程序.我是这样初始化的: tesseract::TessBaseAPI tess;tess.Init(NULL, "eng", tesseract::OEM_TESSERACT_ONLY); 然而,即使使用了这样的自定义白名单 tess.SetVariable("tessedit_char_blacklist", ..
发布时间:2021-11-15 03:41:04 C/C++开发

在 Android 上训练 Tesseract

我正在使用 tess-two 库在 Android 上进行 OCR 识别.我想在 Android 上创建训练数据.我遵循了这个 link 并在 linux 系统上成功创建了训练数据.如何使用 tess-two 或任何其他库在 Android 上做同样的事情? 解决方案 适用于 Android 的 tess-two 库使用与在普通 Linux 系统上运行相同的 Tesseract 代码和相同 ..
发布时间:2021-11-15 03:36:19 移动开发

使用谷歌视觉 OCR API 从特定图像位置提取数据

我正在使用 Googles Vision OCR API 尝试从图像中提取 2 种类型的数据 1) 文本框中的手写文本;下面用红色圆圈标记,2) 勾选或复选框中的“x";下面用绿色圆圈标记.我将把这些数据输入到数据库中,所以我需要为这两种类型的数据返回一个字符串 目前,当我将此图像传递到 API 时,我得到一个包含所有数据的字符串: 中学学习学生对计算机的看法 LO 13.您的家庭成员 ..
发布时间:2021-11-15 03:10:45 C#/.NET

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆 pdf 文件,有些是可搜索的常规 pdf 文件,有些是不可搜索的某些文档的扫描版本.我想提取每个pdf的内容.要提取常规 pdf 的内容,我使用 Apache Tika 并从我使用的不可搜索的内容中提取内容 tesseract-ocr.但是我需要区分哪个pdf是nornal pdf,哪个不是.有没有办法做到这一点? 解决方案 这对你有帮助, public static bool ..
发布时间:2021-11-14 23:45:02 Java开发

Apache Tika 提取扫描的 PDF 文件

我在使用 Apache TIKA(1.10 版)时遇到了一些问题.我得到了一些 PDF 文件,它们只是扫描的纸片.这意味着每个页面只是一个图像.我的目标是无论如何都要提取 PDF 文件的文本. 我的 tesseract 设置正确,提取 JPG 和 PNG 文件就像一个魅力.我正在使用的代码看起来像这样(不要介意缺少的异常处理): public String extractText(Inpu ..
发布时间:2021-11-14 23:43:31 Java开发

Tesseract ocr 返回空字符串

我正在为 android 构建一个 OCR 应用程序,我使用 tesseract ocr 引擎.不知何故,每次我在照片上使用引擎时,它都会返回一个空文本.这是我的代码: public String detectText(Bitmap bitmap) {TessBaseAPI tessBaseAPI = 新 TessBaseAPI();String mDataDir = setTessData() ..
发布时间:2021-09-06 18:36:08 移动开发

使用 Tesseract 从小图像中读取日期

我有一组相当小的包含日期的图像.尺寸可能有问题,但我会说质量还可以.我已按照指南 向引擎提供我所能提供的最清晰的图像.调整大小后,应用过滤器,大量试验和错误等.我想出了一个几乎可以正确阅读的图像.我在下面举了一个例子: 现在,这读作 “9 MAR 2021\n\x0c.不错,但是第一个 2 读作 ".在这一点上,我认为我滥用了 Tesseract 的部分功能.毕竟,我知道它应该期待什么,即" ..
发布时间:2021-09-06 18:35:50 其他开发