tesseract相关内容

在tesseract OCR参数中定义多列?

我在每页包含 6 列的历史报纸上使用 OCR.目前我使用 FineReader 并为每列定义文本块.我想使用 Tesseract.Tesseract 得到的列大多是正确的,但每隔几行就会读入相邻的列.我想知道是否有一种方法可以设置它的参数,以便六列看起来非常僵硬. 根据其他问题的建议,我尝试使用 --psm 和 hocr 没有取得巨大成功. 使用 jpg 我已在 github 上发布, ..
发布时间:2021-09-06 18:35:01 其他开发

如何减少用于 android 中 TessBaseAPI 的 tessdata 的大小?

我有一个 android 应用程序,我在其中使用 Tesseract OCR,即 TessBaseAPI.这需要 tessdata,它是 21mb 文件.我的最终应用发行版 APK 大约为 19 mb,我发现它很多.有什么方法可以减少 tessdata 或我的应用程序的大小或其他任何可以帮助我减少最终 APK 大小的东西? 解决方案 您可以使用 .trainddata 文件的 >3.01 ..
发布时间:2021-09-06 18:34:58 移动开发

Tesseract 似乎不适用于数字

我按照常见问题解答让 Tesseract 识别数字,但我得到的只是输出文件中的一堆文本,尽管我的图像中只有数字. 我的命令行如下所示: tesseract --tessdata-dir ././input.jpg ./output/output数字 任何想法可能会发生什么?. 解决方案 如中所述tesseract github 问题 您不能使用 tesseract 4.0 LST ..
发布时间:2021-09-06 18:34:48 其他开发

Tesseract 错误:警告.无效的分辨率 0 dpi.改用 70

在图像(附图片)上运行 tesseract 时报告错误 tesseract rsa-out.jpg 标准输出警告.无效的分辨率 0 dpi.使用 70 代替.空页!!空页!! 解决方案 图像的元数据可能不包括图像分辨率.如果您知道,您可以使用 --dpi 命令选项来指定输入图像的 DPI.运行 tesseract --help-extra 以获取更多信息. 更新了版本信息和 cmd 的 ..
发布时间:2021-09-06 18:34:43 其他开发

[python]没有属性“TessBaseAPI"

我在编译代码时出错: 导入tessercatapi = tesseract.TessBaseAPI() 错误是: AttributeError:'module' 对象没有属性 'TessBaseAPI' 我已经通过 pip 安装了 tesseract.Python 版本为 2.7 Windows 32 位. 解决方案 我认为您正在尝试使用 tesseract (python ..
发布时间:2021-09-06 18:34:40 Python

如何使用python仅从PDF文件中提取特定文本

如何使用python仅从PDF文件中提取某些特定文本并将输出数据存储到Excel的特定列中. 这是示例输入 PDF 文件 (File.pdf) 链接到完整的 PDF 文件 File.pdf 我们需要从整个 PDF 文件中提取发票编号、到期日和总到期日的值. 到目前为止我使用过的脚本: from io import StringIO从 pdfminer.converter ..
发布时间:2021-09-06 18:34:37 Python

从tesseract hocr xhtml文件中提取数据

我正在尝试使用 Python 从 Tesseract 的 hocr 输出文件中提取数据.我们仅限于 tesseact 3.04 版,因此没有 image_to_data 函数或 tsv 输出可用.我已经能够用 beautifulsoup 和 R 来做到这一点,但这在需要部署它的环境中都不可用.我只是想提取“x_wconf"这个词和信心.下面是一个示例输出文件,我很乐意只返回 [90, 87, 89 ..
发布时间:2021-09-06 18:34:33 Python

linux中的java tesseract错误“无法加载库'tesseract':libtesseract.so"

我在 Eclipse 中使用 tess4J ocr 库,并且在我的 Windows 中运行良好.但是当我想在 linux 中运行那个 java 程序时,它给出了一个错误“无法加载库‘tesseract’:libtesseract.so:无法打开共享对象文件:没有这样的文件或目录". 我在 linux 上没有任何权限来安装 tesseract 或任何其他软件.只是我可以使用 jar 文件并通过 ..
发布时间:2021-09-06 18:34:30 Java开发

`tesseract-ocr` 可以将结果放入 STDOUT 吗?

使用 tesseract-ocr #3.02.02. tesseract 的基本用法是 tesseract source.png 结果 和 result.txt 生成.要获得结果文本,我必须对这个文件进行分类. 是否有任何选项可以将结果转储到标准输出中? 解决方案 您应该升级到 v3.03,其中 添加了对标准输出的支持. ..
发布时间:2021-09-06 18:34:27 其他开发

Tesseract .NET 从内存对象处理图像

据我所知(我可能是错的)Pix.LoadFromFile 是获取 Pix 进行处理的唯一方法.有没有其他方法,例如从位图? 解决方案 我不是tesseract专业的,但是你可以使用以下: Bitmap bmp = (Bitmap)Bitmap.FromFile(MyImgFilePath);Pix img = PixConverter.ToPix(bmp); 您可以在以下位置查看 ..
发布时间:2021-09-06 18:34:23 C#/.NET

如何使用 tesseract 4.0 或使用 pytesseract 检测图像中的表格?

我想检测图像中的表格.识别表格块以及其中可能的文本.在之前版本的 tesseract 中,可以使用参数 textord_dump_table_image.如何在tesseract 4.0中提取表格? 解决方案 很奇怪,目前在 tesseract 中没有可直接获取表区域的 API.但是,您可以使用小技巧“咳嗽"来获取表格坐标. tesseract 有一个配置选项 textord_sho ..
发布时间:2021-09-06 18:34:20 Python

如何查找 Tesseract OCR 配置文件中支持的参数

我想知道 Tesseract OCR 使用的配置文件接受哪些参数,如何编写配置文件等 我在他们的网站上找不到任何相关文档.如何确定支持哪些参数及其含义? 解决方案 我在下面的链接中找到了这些说明.他们是关于编写配置文件以及放置它的位置: 配置文件是没有 BOM 和 Unix 行尾标记的简单文本文件(在 Windows 上,您可以使用一些高级文本编辑器,例如 Notepad++ ..
发布时间:2021-09-06 18:34:12 其他开发

Tesseract - 使用与主要 OCR 不同的图像格式进行训练

正如在这个 SO 问题中所讨论的,tesseract 通常与 .png 文件而不是 .tiff 文件.(我自己也直接经历过这一点).不幸的是,可以处理 .png 文件的框编辑器较少.因此,我很想使用 .tiff 文件训练我的数据,但随后将 .png 文件用于我的主要 OCR 工作.这样做会降低培训的效果吗?如果是这样,有什么方法可以解决它(除了找到一个可以接受 .png 文件的框编辑器)? ..
发布时间:2021-09-06 18:34:09 其他开发

在 Python 中使用 Tesseract OCR 的 UnicodeDecodeError

我正在尝试使用 Python 中的 Tesseract OCR 从图像文件中提取文本,但我遇到了一个错误,我可以弄清楚如何处理它.我所有的环境都很好,因为我用 python 中的 ocr 测试了一些示例图像! 这是代码 from PIL import Image导入 pytesseractstrs = pytesseract.image_to_string(Image.open('bina ..
发布时间:2021-09-06 18:34:06 Python

如何在 Windows 上安装 tesserocr?

我下载了tesseract-OCR的可执行文件并安装了它.另一方面,我还从 http://www.leptonica.com/download 下载了 leptonica 的 zip 文件.html.它包括两个目录,分别是lib 和include. 接下来我尝试在 python 虚拟环境中执行 pip install tesserocr 并返回错误 tesserocr.cpp(460): ..
发布时间:2021-09-06 18:34:03 Python

如何使用 Tesseract 训练基于 Python 的 OCR 以使用不同的国民身份证进行训练?

我正在使用 python 制作一个 OCR 系统,该系统从 ID 卡中读取并给出图像的确切结果,但它没有给我正确的答案,因为超立方体读取了太多错误的字符.我如何训练 tesseract,让它完美地读取 ID 卡并为我们提供正确和准确的详细信息,此外我如何让自己进入 .tiff 文件并使 tesseract 为我的项目工作. 解决方案 提高 Pytesseract 识别度的步骤: 清理 ..
发布时间:2021-09-06 18:33:59 Python