pdfminer相关内容

在python中将pdf转换为docx格式

请告诉我如何将pdf转换为docx。我尝试使用pdfminer转换为html来提取文本,但看起来仍然不够好。 pdf2docx 推荐答案 安装pdf2docx包点击here 安装 克隆或下载pdf2docx pip install pdf2docx or # download the package and install your environment ..
发布时间:2022-06-15 10:23:00 其他开发

使用Python从扫描的pdf中提取PDF数据

我正在用tesseract OCR从扫描的pdf中提取数据,我能够提取数据,但精度不是很好。在很多地方,它显示错误的数据,所以我可以100%准确地获取数据。 首先我将pdf转换为jpg格式,然后使用tesseract模块从图像中提取数据。 from PIL import Image import pytesseract text=(pytesseract.image_to_strin ..
发布时间:2022-03-27 15:50:42 其他开发

在 Python 中从 PDF 中提取超链接

我有一个包含几个超链接的 PDF 文档,我需要从 pdf 中提取所有文本.我使用了来自 http://www 的 PDFMiner 库和代码.endlesscurious.com/2012/06/13/scraping-pdf-with-python/ 提取文本.但是,它不会提取超链接. 例如,我的文字显示查看此链接,并附有链接.我能够提取单词Check this link out,但我真正 ..
发布时间:2022-01-02 08:29:18 Python

如何处理 PDFMiner 提取的文本中的 CID?

我有一些印地语的 PDF,并且有可提取的文本.我使用 pdfminer.six for python 3.6 进行提取.输出如下: 如您所见,有许多字符被转换为“(cid :number)"形式. 在进一步分析中,我发现 PDF 包含将字符代码映射到字形索引的 CMAP.因此,CID 是 CMAP 表中它映射到的字形的字符标识. 但是这些字符代码与 Unicode 值有什么关系呢 ..
发布时间:2021-12-22 20:10:11 Python

使用 PDFminer 解析 pdf(梵文脚本)给出错误的输出

我正在尝试解析一个包含印地语(梵文脚本)印度选民名单的 pdf 文件. PDF 正确显示所有文本,但是当我尝试使用 PDFminer 将此 pdf 转储为文本格式时,它输出的字符与原始 pdf 字符不同 例如显示/正确的词是सामान्य 但是输出的词是सपमपनद 现在我想知道为什么会发生这种情况以及如何正确解析这种类型的 pdf 文件 我还包括示例 pdf 文件- ..
发布时间:2021-12-14 16:10:30 Python

如何使用 PDFMiner 获取 PDF 中文本的位置?

PDFMiner 的文档说: PDFMiner 允许获取页面中文本的确切位置 但是,我一直无法找到如何执行此操作.PDFMiner 的“文档"相当稀疏,所以我不明白如何做到这一点. 解决方案 您正在寻找每个布局对象上的 bbox 属性.PDFMiner 文档中有一些关于如何解析布局层次结构的信息,但没有涵盖一切. 这是一个例子: from pdfminer.pdfdoc ..
发布时间:2021-12-14 15:54:22 Python

如何从 PDF 文件中提取文本和文本坐标?

我想使用 PDFMiner 从 PDF 文件中提取所有文本框和文本框坐标. 许多其他 Stack Overflow 帖子介绍了如何以有序的方式提取所有文本,但我如何执行获取文本和文本位置的中间步骤? 给定一个 PDF 文件,输出应该类似于: 489, 41, “签名"500、52、“b"630, 202, “a_g_i_r" 解决方案 完全公开,我是pdfminer.six.它是 ..
发布时间:2021-12-14 15:13:31 Python

我如何使用 pdfminer 作为库

我正在尝试使用 pdfminer.我能够使用 pdfminer 命令行工具 pdf2txt.py 成功地将此数据提取到 .txt 文件.我目前这样做,然后使用 python 脚本来清理 .txt 文件.我想将pdf提取过程合并到脚本中并为自己节省一步. 当我发现这个链接时,我以为我在做某事,但我的任何解决方案都没有成功.也许那里列出的功能需要再次更新,因为我使用的是较新版本的 pdfmine ..
发布时间:2021-12-14 15:12:43 Python

Python - 从网页 PDF 中提取文本

所以我遇到了一些关于将 PDF 转换为 HTML 或将它们转换为文本的帖子,但是它们都处理从保存到计算机的文件中执行此操作.有没有办法在不下载 PDF 文件本身的情况下从网页 PDF 中提取文本(因为我将通过遍历 URL 列表来为大量文件这样做)? 我也很好奇哪个库是实现这一目标的最佳库.pdfkit、pdf2txt、pdfminer等? 这是我将要处理的格式的示例网站:http:// ..
发布时间:2021-09-24 18:47:45 Python

PDFminer:提取带有字体信息的文本

我找到了这个问题,但它使用命令行,而我没有想在命令行中使用子进程调用 Python 脚本并解析 HTML 文件以获取字体信息. 我想使用 PDFminer 作为库,我发现 这个问题,但它们只是提取纯文本,没有其他信息,如字体名称、字体大小等. 解决方案 #!/usr/bin/env python从 pdfminer.pdfparser 导入 PDFParser从 pdfminer.p ..
发布时间:2021-09-06 19:32:27 Python

如何在 python 3 中使用 PDFminer.six?

我想使用 pdfminer.six 这是一个工具,它可以与 Python3 一起用于从 PDF 文档中提取信息.问题是根本没有好的文档,也没有关于如何使用该工具的源代码示例. 我已经尝试过 StackOverflow 中的一些代码,但没有奏效.下面是我的代码. from pdfminer.converter import TextConverter从 pdfminer.layout 导入 ..
发布时间:2021-06-28 19:15:55 其他开发

在python中使用PDFMiner从PDF文件中提取文本?

我正在寻找有关如何使用 PDFMiner 和 Python 从 PDF 文件中提取文本的文档或示例. 看起来 PDFMiner 更新了他们的 API,我发现的所有相关示例都包含过时的代码(类和方法已更改).我发现可以更轻松地从 PDF 文件中提取文本的库使用的是旧的 PDFMiner 语法,因此我不确定如何执行此操作. 事实上,我只是在查看源代码,看看我是否能弄明白. 解决方案 ..
发布时间:2021-06-25 19:12:45 Python

我想用 python 抓取印地语(印度语)pdf 文件

我已经编写了从 PDF 文件中抓取所有数据的 Python 代码.这里的问题是,一旦被刮掉,单词就会失去语法.如何解决这些问题?我附上了代码. from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter从 pdfminer.converter 导入 TextConverter从 pdfminer.layout 导入 ..
发布时间:2021-06-12 18:35:14 Python

当我的脚本导入pikepdf和pdfminer3模块时,如何修复pyinstaller'no module named ...'错误?

我已经使用PikePDF和PDFminer3构建了一个有效的py脚本,它将从桌面上删除PDF并使用可用的单词创建一个txt文件. 这样做的目的是帮助我的团队在工作中修改通常无法复制粘贴以进行修改的法律文件(因此必须手动输入).由于大多数同事都反对设置anaconda和使用python,因此我想使用pyinstaller将脚本转换为.exe. 当我运行由pyinstaller创建的应用程 ..
发布时间:2021-05-06 18:52:51 Python

如何从pdf提取电子邮件

我正在尝试使用pdfminer和正则表达式从简历中提取电子邮件 从IO导入StringIO的 从pdfminer3.pdfinterp导入PDFResourceManager,PDFPageInterpreter从pdfminer3.converter导入TextConverter从pdfminer3.layout导入LAParams从pdfminer3.pdfpage导入PDFPage汇入d ..
发布时间:2021-05-04 18:49:53 Python

Python脚本对文件夹中的所有文件运行命令

为了将pdf转换为文本,我使用以下命令: pdf2txt.py -o text.txt example.pdf#它将example.pdf转换为text.txt 但是我有1000多个pdf文件,我需要先将其转换为文本文件,然后再进行分析. 有没有一种方法可以使用此命令遍历pdf文件并转换所有文件? 解决方案 我建议您使用shell脚本: f的 (* .pdf){pdf ..
发布时间:2021-04-28 19:46:29 Python

将CID字体代码解码为等效的ASCII字符

我正在尝试从一堆PDF中挖掘一些文本,其中一些已嵌入 CID字体在输出中: (cid:80)(cid:72)(cid:87)(cid:68)(cid:70)(cid:76)(cid:87)(cid:76)(cid:72)(cid:86)(cid:3) (cid:177)(cid:3)(cid:71)(cid:72)(cid:191)(cid:81)(cid:72)(cid:71)(cid:3 ..
发布时间:2020-11-09 19:48:11 Python

为什么在PDFMiner中不能将字符ID 160识别为Unicode?

我正在使用 PDFMiner 将.pdf文件转换为.xml文件. 对于.pdf文件中的每个单词,PDFMiner都会检查它是否为Unicode(以及许多其他内容).如果是,它将返回字符,如果不是,它将引发异常并返回字符串“(cid:%d)",其中%d是字符ID,我认为这是Unicode十进制. 此问题的编辑部分对此进行了很好的解释: pdf2txt输出中的内容(cid:51)是什么? ..
发布时间:2020-07-13 06:07:54 Python