tesseract 第4页 - IT屋-程序员软件开发技术分享社区

如何在 python-tesseract 中设置 tessedit_write_images?

我正在尝试设置 tessedit_write_images 但似乎无法做到，我在任何地方都看不到 tessinput.tif 我在做: 导入tesseractapi = tesseract.TessBaseAPI()api.Init(".","eng",tesseract.OEM_TESSERACT_ONLY)api.SetPageSegMode(tesseract.PSM_AUTO_OS ..

发布时间：2021-09-06 18:35:04 tesseract python-tesseract 其他开发

在tesseract OCR参数中定义多列?

我在每页包含 6 列的历史报纸上使用 OCR.目前我使用 FineReader 并为每列定义文本块.我想使用 Tesseract.Tesseract 得到的列大多是正确的，但每隔几行就会读入相邻的列.我想知道是否有一种方法可以设置它的参数，以便六列看起来非常僵硬. 根据其他问题的建议，我尝试使用 --psm 和 hocr 没有取得巨大成功. 使用 jpg 我已在 github 上发布， ..

发布时间：2021-09-06 18:35:01 ocr tesseract 其他开发

如何减少用于 android 中 TessBaseAPI 的 tessdata 的大小?

我有一个 android 应用程序，我在其中使用 Tesseract OCR，即 TessBaseAPI.这需要 tessdata，它是 21mb 文件.我的最终应用发行版 APK 大约为 19 mb，我发现它很多.有什么方法可以减少 tessdata 或我的应用程序的大小或其他任何可以帮助我减少最终 APK 大小的东西? 解决方案您可以使用 .trainddata 文件的 >3.01 ..

发布时间：2021-09-06 18:34:58 android tesseract 移动开发

Tesseract MacOS 打开数据文件时出错 ./tessdata/eng.traineddata

安装 Tesseract 以使用 Selenium WebDriver (Java) 进行一些 OCR 测试. 这是我对 Tess4J 的 Maven 依赖 net.sourceforge.tess4jtess4j2.0.0测试 ..

发布时间：2021-09-06 18:34:54 tesseract 其他开发

Tesseract 似乎不适用于数字

我按照常见问题解答让 Tesseract 识别数字，但我得到的只是输出文件中的一堆文本，尽管我的图像中只有数字. 我的命令行如下所示: tesseract --tessdata-dir ././input.jpg ./output/output数字任何想法可能会发生什么?. 解决方案如中所述tesseract github 问题您不能使用 tesseract 4.0 LST ..

发布时间：2021-09-06 18:34:48 tesseract 其他开发

在tesseract中添加任何traineddata文件并在IOS中使用

我能够编译已经在 tesseract 示例中的 ENGLISH 版本，但无法添加其他语言，如 ara.traineddata. 我喜欢 Tesseract* tesseract = [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"ara+eng"]; 它可以识别 ENGLISH，但对于 ara 却报错打开数据文件 ..

发布时间：2021-09-06 18:34:45 ios tesseract 移动开发

Tesseract 错误:警告.无效的分辨率 0 dpi.改用 70

在图像(附图片)上运行 tesseract 时报告错误 tesseract rsa-out.jpg 标准输出警告.无效的分辨率 0 dpi.使用 70 代替.空页！！空页！！解决方案图像的元数据可能不包括图像分辨率.如果您知道，您可以使用 --dpi 命令选项来指定输入图像的 DPI.运行 tesseract --help-extra 以获取更多信息. 更新了版本信息和 cmd 的 ..

发布时间：2021-09-06 18:34:43 tesseract 其他开发

[python]没有属性“TessBaseAPI"

我在编译代码时出错: 导入tessercatapi = tesseract.TessBaseAPI() 错误是: AttributeError:'module' 对象没有属性 'TessBaseAPI' 我已经通过 pip 安装了 tesseract.Python 版本为 2.7 Windows 32 位. 解决方案我认为您正在尝试使用 tesseract (python ..

发布时间：2021-09-06 18:34:40 python tesseract Python

如何使用python仅从PDF文件中提取特定文本

如何使用python仅从PDF文件中提取某些特定文本并将输出数据存储到Excel的特定列中. 这是示例输入 PDF 文件 (File.pdf) 链接到完整的 PDF 文件 File.pdf 我们需要从整个 PDF 文件中提取发票编号、到期日和总到期日的值. 到目前为止我使用过的脚本: from io import StringIO从 pdfminer.converter ..

发布时间：2021-09-06 18:34:37 python dataframe tesseract python-tesseract Python

我正在尝试使用 Python 从 Tesseract 的 hocr 输出文件中提取数据.我们仅限于 tesseact 3.04 版，因此没有 image_to_data 函数或 tsv 输出可用.我已经能够用 beautifulsoup 和 R 来做到这一点，但这在需要部署它的环境中都不可用.我只是想提取“x_wconf"这个词和信心.下面是一个示例输出文件，我很乐意只返回 [90, 87, 89 ..

发布时间：2021-09-06 18:34:33 python xhtml tesseract hocr Python

linux中的java tesseract错误“无法加载库'tesseract':libtesseract.so"

我在 Eclipse 中使用 tess4J ocr 库，并且在我的 Windows 中运行良好.但是当我想在 linux 中运行那个 java 程序时，它给出了一个错误“无法加载库‘tesseract’:libtesseract.so:无法打开共享对象文件:没有这样的文件或目录". 我在 linux 上没有任何权限来安装 tesseract 或任何其他软件.只是我可以使用 jar 文件并通过 ..

发布时间：2021-09-06 18:34:30 java linux tesseract Java开发

`tesseract-ocr` 可以将结果放入 STDOUT 吗?

使用 tesseract-ocr #3.02.02. tesseract 的基本用法是 tesseract source.png 结果和 result.txt 生成.要获得结果文本，我必须对这个文件进行分类. 是否有任何选项可以将结果转储到标准输出中? 解决方案您应该升级到 v3.03，其中添加了对标准输出的支持. ..

发布时间：2021-09-06 18:34:27 tesseract 其他开发

Tesseract .NET 从内存对象处理图像

据我所知(我可能是错的)Pix.LoadFromFile 是获取 Pix 进行处理的唯一方法.有没有其他方法，例如从位图? 解决方案我不是tesseract专业的，但是你可以使用以下: Bitmap bmp = (Bitmap)Bitmap.FromFile(MyImgFilePath);Pix img = PixConverter.ToPix(bmp); 您可以在以下位置查看 ..

发布时间：2021-09-06 18:34:23 .net tesseract C#/.NET

如何使用 tesseract 4.0 或使用 pytesseract 检测图像中的表格?

我想检测图像中的表格.识别表格块以及其中可能的文本.在之前版本的 tesseract 中，可以使用参数 textord_dump_table_image.如何在tesseract 4.0中提取表格? 解决方案很奇怪，目前在 tesseract 中没有可直接获取表区域的 API.但是，您可以使用小技巧“咳嗽"来获取表格坐标. tesseract 有一个配置选项 textord_sho ..

发布时间：2021-09-06 18:34:20 python tesseract Python

使用tesseract 3.01的字符置信度值

我执行了以下代码来生成字符置信度值: int main(int argc, char **argv) {const char *lang="eng";const PIX *pixs;if ((pixs = pixRead(argv[1])) == NULL) {cout ..

发布时间：2021-09-06 18:34:15 tesseract 其他开发

如何查找 Tesseract OCR 配置文件中支持的参数

我想知道 Tesseract OCR 使用的配置文件接受哪些参数，如何编写配置文件等我在他们的网站上找不到任何相关文档.如何确定支持哪些参数及其含义? 解决方案我在下面的链接中找到了这些说明.他们是关于编写配置文件以及放置它的位置: 配置文件是没有 BOM 和 Unix 行尾标记的简单文本文件(在 Windows 上，您可以使用一些高级文本编辑器，例如 Notepad++ ..

发布时间：2021-09-06 18:34:12 tesseract 其他开发

Tesseract - 使用与主要 OCR 不同的图像格式进行训练

正如在这个 SO 问题中所讨论的，tesseract 通常与 .png 文件而不是 .tiff 文件.(我自己也直接经历过这一点).不幸的是，可以处理 .png 文件的框编辑器较少.因此，我很想使用 .tiff 文件训练我的数据，但随后将 .png 文件用于我的主要 OCR 工作.这样做会降低培训的效果吗?如果是这样，有什么方法可以解决它(除了找到一个可以接受 .png 文件的框编辑器)? ..

发布时间：2021-09-06 18:34:09 tesseract 其他开发

在 Python 中使用 Tesseract OCR 的 UnicodeDecodeError

我正在尝试使用 Python 中的 Tesseract OCR 从图像文件中提取文本，但我遇到了一个错误，我可以弄清楚如何处理它.我所有的环境都很好，因为我用 python 中的 ocr 测试了一些示例图像！这是代码 from PIL import Image导入 pytesseractstrs = pytesseract.image_to_string(Image.open('bina ..

发布时间：2021-09-06 18:34:06 python tesseract python-tesseract Python

如何在 Windows 上安装 tesserocr?

我下载了tesseract-OCR的可执行文件并安装了它.另一方面，我还从 http://www.leptonica.com/download 下载了 leptonica 的 zip 文件.html.它包括两个目录，分别是lib 和include. 接下来我尝试在 python 虚拟环境中执行 pip install tesserocr 并返回错误 tesserocr.cpp(460): ..

发布时间：2021-09-06 18:34:03 python windows-10 tesseract windows-7-x64 Python

如何使用 Tesseract 训练基于 Python 的 OCR 以使用不同的国民身份证进行训练?

我正在使用 python 制作一个 OCR 系统，该系统从 ID 卡中读取并给出图像的确切结果，但它没有给我正确的答案，因为超立方体读取了太多错误的字符.我如何训练 tesseract，让它完美地读取 ID 卡并为我们提供正确和准确的详细信息，此外我如何让自己进入 .tiff 文件并使 tesseract 为我的项目工作. 解决方案提高 Pytesseract 识别度的步骤: 清理 ..

发布时间：2021-09-06 18:33:59 python tesseract Python

tesseract相关内容