tesseract相关内容

Tesseract OCR 不适用于 64 位机器

我正在开发一个使用 Tesseract 进行 OCR 的应用程序. 我的代码在 Windows 32 位系统中运行良好.但是当我尝试使用 32 位 .dll 文件在 64 位机器上运行相同的代码时,代码正在运行,但代码没有给出准确的结果. 所以我使用 64 位 .dll 文件在 64 位机器上运行它.现在,当我尝试运行相同的程序时,在控制台(Eclipse Kepler)中出现以下错误 ..
发布时间:2021-11-25 00:13:19 C#

Android Studio 项目中缺少 allheaders.h

我正在学习这个tesseract教程并让一切顺利,直到我实际运行 Java 代码.当我尝试 new TessBaseApi(); 它抛出以下错误 错误代码:2输出:在 tesstwo/src/main/jni/com_googlecode_leptonica_android/box.cpp:17:0 包含的文件中:tesstwo/src/main/jni/com_googlecode_lep ..
发布时间:2021-11-21 20:00:56 Android

在 tesseract C++ API 中禁用字典辅助 OCR

我有一个使用 tesseract API 对技术数据表进行 OCR 处理的应用程序.我是这样初始化的: tesseract::TessBaseAPI tess;tess.Init(NULL, "eng", tesseract::OEM_TESSERACT_ONLY); 然而,即使使用了这样的自定义白名单 tess.SetVariable("tessedit_char_blacklist", ..
发布时间:2021-11-15 03:41:04 其他开发

在 Android 上训练 Tesseract

我正在使用 tess-two 库在 Android 上进行 OCR 识别.我想在 Android 上创建训练数据.我遵循了这个 link 并在 linux 系统上成功创建了训练数据.如何使用 tess-two 或任何其他库在 Android 上做同样的事情? 解决方案 适用于 Android 的 tess-two 库使用与在普通 Linux 系统上运行相同的 Tesseract 代码和相同 ..
发布时间:2021-11-15 03:36:19 其他开发

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆 pdf 文件,有些是可搜索的常规 pdf 文件,有些是不可搜索的某些文档的扫描版本.我想提取每个pdf的内容.要提取常规 pdf 的内容,我使用 Apache Tika 并从我使用的不可搜索的内容中提取内容 tesseract-ocr.但是我需要区分哪个pdf是nornal pdf,哪个不是.有没有办法做到这一点? 解决方案 这对你有帮助, public static bool ..
发布时间:2021-11-14 23:45:02 其他开发

Apache Tika 提取扫描的 PDF 文件

我在使用 Apache TIKA(1.10 版)时遇到了一些问题.我得到了一些 PDF 文件,它们只是扫描的纸片.这意味着每个页面只是一个图像.我的目标是无论如何都要提取 PDF 文件的文本. 我的 tesseract 设置正确,提取 JPG 和 PNG 文件就像一个魅力.我正在使用的代码看起来像这样(不要介意缺少的异常处理): public String extractText(Inpu ..
发布时间:2021-11-14 23:43:31 其他开发

pytesseract 加载语言失败\'eng\'

我见过很多其他人遇到此错误,并且我尝试了很多不同的方法来修复它.到目前为止没有任何效果.我有: 将 Tesseract-OCR 文件夹的路径和 tesseract.exe 文件添加到 PATH 添加了一个名为 TESSDATA_PREFIX 的环境变量,它指向 Tesseract-OCR 文件夹 多次替换了 eng.traneddata 文件 在程序中添加了pytesseract.py ..
发布时间:2021-09-06 18:36:22 其他开发

为 Tesseract 提供模式

我同时使用 go 和 tesseract.我有类似的东西2^3 或 22^55 而且 Tesseract 有时仍然会出现白名单错误,所以我正在寻找一种方法来提供模式,我阅读了 FaQ 并在集市上尝试了建议的选项. 我的模式文件如下所示: \d\d^\d\d\d^\d\d\d^\d\d^\d\d 但不知何故它仍然不起作用.是否有任何提示可以使其工作,或者是实现这一点以生成新语言文 ..
发布时间:2021-09-06 18:36:19 其他开发

jTessBoxEditorFX - 无法处理 600dpi .png 文件

我有一个 pdf,我已将其转换为 500dpi 和 600dpi 的 .png.(见下文).500dpi 版本与 jTessBoxEditor 一起工作得很好.但是,600dpi 的失败了.我尝试按照建议增加 JVM 堆大小 此处.即使是 600 dpi 的图像也只有 91KB.即使我通过运行 jTessBoxEditor 将 JVM 堆大小设置得相当大: export JAVA_HOME="/ ..
发布时间:2021-09-06 18:36:16 其他开发

Tesseract:多页训练文件与多个单独文件的优势?

这个 SO answer 表明使用 .tif 文件训练 tesseract 比.png 文件,因为 .tif 文件可以有多个页面,因此训练样本更大.然而,这个 SO 问题讨论了训练程序一次多张图像.更重要的是,例如 man 页面mftraining 建议它可以接受多个训练文件. 是否有任何理由不使用多个单独的图像文件进行训练? 解决方案 看来,使用多个图像在单个字体上训练 tesse ..
发布时间:2021-09-06 18:36:14 其他开发

PHP TesseractOCR exec 命令问题

我已经从 mac 终端安装了 TesseractOCR.当我从终端运行以下命令时,它正在工作. tesseract "hello.png"/Applications/MAMP/tmp/php/987051047 但是相同的命令在 中不起作用 exec("tesseract "hello.png"/Applications/MAMP/tmp/php/987051047") 完整 ..
发布时间:2021-09-06 18:36:10 其他开发

Tesseract ocr 返回空字符串

我正在为 android 构建一个 OCR 应用程序,我使用 tesseract ocr 引擎.不知何故,每次我在照片上使用引擎时,它都会返回一个空文本.这是我的代码: public String detectText(Bitmap bitmap) {TessBaseAPI tessBaseAPI = 新 TessBaseAPI();String mDataDir = setTessData() ..
发布时间:2021-09-06 18:36:08 其他开发

如何在 bash 脚本中检查 tesseract 的输出?

我在 bash 脚本中运行一个循环并将 png 文件传递​​给 tesseract 以读取图像文件的文本.如果 tesseract ocr 的输出显示 Empty page!! 或什么都没有,那么我希望循环继续下一个图像.如果它确实包含文本,那么我想将输出存储在文本文件中. 这是我的基本脚本的样子, for i in {1..100}做tesseract 文件-${i}.png stdou ..
发布时间:2021-09-06 18:36:05 其他开发

如何在Android平台(armv7 & arm64)上使用(编译)Tesseract 4

目前我在一个 android 应用程序(armv7 和 arm64 架构)中使用 Tesseract 3.但是,我需要升级到 Tesseract 4 才能使用它的一些附加功能.如何升级到 Tesseract 4? 这些是我目前尝试过的: compiling_on_terminal_or_androidStudio compiling_using_docker 这些方法的问题: ..
发布时间:2021-09-06 18:36:02 其他开发

Android Tesseract 错误.数据文件未在

我正在学习使用 NDK 和 opencv 的 android. 我成功使用 ndk.所以我得到了可用的数据(我的意思是数据是由 canny 完成的.) 当我使用 Tesseract 时, 在/storage/emulated/0/tesseract/tessdata/eng.traineddata 中找不到数据文件 发生此错误. 我已经检查过adroid/app/sr ..
发布时间:2021-09-06 18:35:59 其他开发

R 错误:“名称"属性 [1] 的长度必须与向量 [0] 的长度相同

我在一个文件夹 (“C:/Users/Documents/files_i_want") 中有许多 pdf 文件(这些文件是“扫描的").PDF 的文件如下所示:https://jeroen.github.io/images/ocrscan.pdf 所有的pdf文件都有不同的名字.我正在尝试使用以下命令将它们同时全部导入 R:pdftools::pdf_convert 库(pdftools) ..
发布时间:2021-09-06 18:35:56 其他开发

无法让 tesseract 在 python 上工作

当我尝试在 jupyter notebook 或 pycharm 上使用 tesseract 运行代码时遇到了一些问题.我怀疑是 Windows 7 上的安装问题,但我不确定我做错了什么. 所以我尝试了很多不同的方法,从 pip install tesseract 和 pytesseract 到安装 tesseract OCR(起初我认为这只是一个库,这就是我搞砸了顺序的原因),如下所示:h ..
发布时间:2021-09-06 18:35:53 其他开发

使用 Tesseract 从小图像中读取日期

我有一组相当小的包含日期的图像.尺寸可能有问题,但我会说质量还可以.我已按照指南 向引擎提供我所能提供的最清晰的图像.调整大小后,应用过滤器,大量试验和错误等.我想出了一个几乎可以正确阅读的图像.我在下面举了一个例子: 现在,这读作 “9 MAR 2021\n\x0c.不错,但是第一个 2 读作 ".在这一点上,我认为我滥用了 Tesseract 的部分功能.毕竟,我知道它应该期待什么,即" ..
发布时间:2021-09-06 18:35:50 其他开发

导入tesseract错误

我正在尝试使用 Mac Maverick 在 Python 中导入 tesseract,但出现以下错误: 回溯(最近一次调用最后一次):文件“",第 1 行,在 中 中的文件“tesseract.py",第 26 行_tesseract = swig_import_helper()文件“tesseract.py",第 18 行,在 swig_import_help ..
发布时间:2021-09-06 18:35:46 其他开发

阅读条形码pytesseract python下方的文本

我正在尝试获取图像中条形码下方的数字.我已经对其他一些图像尝试了相同的代码并且工作正常但不适用于该图像这是图片 这是到目前为止的代码 def readNumber():图像 = cv2.imread(sTemp)灰色 = cv2.cvtColor(图像,cv2.COLOR_BGR2GRAY)模糊 = cv2.GaussianBlur(gray, (3,3), 0)thresh = cv2. ..
发布时间:2021-09-06 18:35:43 其他开发