pdf-parsing - IT屋-程序员软件开发技术分享社区

Ruby:阅读 PDF 文件

我正在寻找一种快速可靠的方法来读取/解析 Ruby 中的大型 PDF 文件(在 Linux 和 OSX 上). 直到现在我发现了相当古老和简单的PDF-toolkit(一个PDF-toolkit="http://en.wikipedia.org/wiki/Pdftotext" rel="noreferrer">pdftotext-wrapper) 和 PDF 阅读器，它无法读取我的大部分文件 ..

发布时间：2021-12-14 15:51:29 ruby-on-rails ruby pdf pdf-parsing 其他开发

如何使用 Python 从 PDF 中提取表格作为文本?

我有一个包含表格、文本和一些图像的 PDF.我想在 PDF 中有表格的地方提取表格. 现在正在手动从页面中查找表格.从那里我捕获该页面并保存到另一个 PDF 中. 导入 PyPDF2PDFfilename = "Sammamish.pdf" #PDF 的文件名/存储 PDF 的目录pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #Pd ..

发布时间：2021-12-14 15:23:53 python pdf pdf-parsing Python

解析二进制文件时出错...(主要是 PDF)

我正在尝试通过对二进制文件使用 ByteArrayInputStream 来使用 Apache Tika 解析 pdf 文件......并且开始出现一些 pdf 文件的错误，而对于一些它解析得很好.. 早些时候我能够解析相同的pdf 文件使用 Tika，但现在当我尝试使用 ByteArrayInputStream 时，我开始收到错误..我认为 ByteArray 存在一些问题这是我得到的错误.. ..

发布时间：2021-11-14 23:48:11 java parsing apache-tika pdf-parsing Java开发

pdf2txt 的输出中的 (cid:51) 是什么?

所以我想从 pdf 文件中提取文本，我需要它的位置、宽度、高度、字体. 我尝试了很多，但最有用和最完整的解决方案看起来是 PDFMiner，在这种情况下，更准确地说是 pdf2txt.py. 我已经按照文档和示例进行操作，并尝试使用以下命令从我的 pdf 中提取文本 Learn More: pdf2txt.py -Y 正常 -t xml -o 按钮.xml 按钮.pdf 输出 bu ..

发布时间：2021-10-01 19:17:08 python xml pdf-parsing Python

Apache PDFBox 删除字符之间的空格

我们正在使用 PDFBox 从 PDF 中提取文本. 某些 PDF 的文本无法正确提取.下图显示了 PDF 中的一部分作为图像: 文本提取后，我们得到以下文本: 3, 8 5 EU R 1 Netto 38,50 EUR 4,00 (','和'8'之间加空格) 这是我们的代码: PDDocument pdf = PDDocument.load(reuseableInput ..

发布时间：2021-06-15 18:30:27 pdfbox text-extraction pdf-parsing 其他开发

获取图像的极右，左，上，下位置-Itext

我正在为pdf设置边距，并检查页面内容是否超出了边距. 如果页面的内容仅仅是文本，我很容易做到这一点. 这是我在做什么: 我正在使用TextMarginFinder.我将根据书的大小设置 pdf的left margin值.并检查finder.getLlx();，因为finder.getLlx();将使我在该页面中文本的最左侧位置. TextMarginFinder find ..

发布时间：2021-02-09 19:50:51 java pdf itext pdf-parsing pdfrenderer Java开发

CGPDF< ...> -二传手在哪里？

是否可以使用CGPDF创建PDF对象（例如，具有自定义PDF生产者/消费者/查看者需要的参数的PDF字典）还是我必须编写自己的解析器并创建新的预告片，外部参照等，以便将新对象添加到PDF？据我了解，CG在创建PDF时会将其图形上下文的所有图形调用转换为正确的PDF副本-但我有应存储在PDF中的自定义数据/对象（例如用于注释，线程等），但显然我只能找到所有这些吸气剂从a中获取数据字典 ..

发布时间：2020-10-09 23:52:48 ios pdf pdf-generation core-graphics pdf-parsing 移动开发

使用PDFMiner解析不带/Root对象的PDF

我正在尝试使用PDFMiner python绑定从大量PDF中提取文本.我编写的模块可用于许多PDF，但是对于一部分PDF，我却得到了一些神秘的错误: ipython堆栈跟踪: /usr/lib/python2.7/dist-packages/pdfminer/pdfparser.pyc in set_parser(self, parser) 331 ..

发布时间：2020-07-04 21:23:49 python pypdf pdf-parsing pdf-manipulation Python

使用iText/iTextSharp从PDF文件中提取字体高度和旋转度

我创建了一些代码，以使用iTextSharp从PDF文件提取文本和字体高度，但是不处理文本旋转.如何提取/计算这些信息? 这是代码: // Create PDF reader var reader = new PdfReader("myfile.pdf"); for (var k = 1; k ..

发布时间：2020-06-26 20:11:59 c# pdf itextsharp itext pdf-parsing C#/.NET

使用functools.partial为pdfquery创建自定义过滤器获取属性错误

背景我正在使用pdfquery解析多个文件，例如问题我正在尝试编写通用化的filer函数，以中提到的自定义选择器为基础pdfquery的文档，可以采用特定范围作为参数.因为引用了this，所以我想我可以通过使用functools.partial提供部分函数来解决此问题(如下所示) 输入 import pdfquery import functools def load ..

发布时间：2020-05-25 05:32:25 python python-3.x pdf functools pdf-parsing Python

struct.error:解压缩需要长度为16的字符串参数

在处理带有pdfminer(pdf2txt.py)的PDF 文件(2.pdf)时，以下错误: pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in if __name__ == '__main__': sys.exi ..

发布时间：2020-05-25 04:39:35 python pdf pdftotext pdfminer pdf-parsing Python

从PDF中提取表格

我正在尝试从pdf 文档我尝试了pdf-> html->提取表的路由.我在上面提到的pdf转换为html时会产生垃圾，可能是因为字体的原因，该文档不是英文的. 使用x和y坐标提取pdf并不是一种选择，因为此解决方案需要从上面提到的网址中获取将来的pdf，它将具有表格，但并不总是在同一位置. 请帮助谢谢. 解决方案 PDF不包含显式表数据.它只包含我们倾向于解释为 ..

发布时间：2020-05-25 04:25:36 python pdf pdf-parsing Python

Ruby:读取PDF文件

我正在寻找一种快速，可靠的方式来读取/解析Ruby中的大型PDF文件(在Linux和OSX上). 直到现在，我已经找到了相当古老而简单的 PDF工具包( ="http://en.wikipedia.org/wiki/Pdftotext" rel ="noreferrer"> pdftotext -包装器)和 PDF阅读器，无法读取我的大部分文件.尽管这两个库提供了我一直在寻找的功能. ..

发布时间：2020-05-25 03:48:49 ruby-on-rails ruby pdf pdf-parsing 其他开发

解析二进制文件时出错...(主要是PDF)

我正尝试使用ByteArrayInputStream来使用Apache Tika解析二进制文件中的pdf文件...并开始对某些pdf文件出错，并且某些文件的解析非常好.使用Tika的pdf文件，但是现在当我尝试使用ByteArrayInputStream时，我开始出现错误..我认为ByteArray出现了一些问题.这就是我得到的错误. org.apache.tika.exception.Ti ..

发布时间：2020-05-25 01:42:46 java parsing apache-tika pdf-parsing Java开发

从PDF文件集中提取表格内容

我有一堆PDF-可能数百或数千.它们的格式并非全部相同，但是它们中的任何一个都可能具有一个或多个表，这些表中包含我想收集到单独数据库中的有趣信息. 当然，我知道我必须写一些东西才能做到这一点. Perl是我的选择-也许是Java.只要是免费的，我就不在乎什么语言(或者免费试用，以确保它适合我的目的). 我正在查看CAM :: Parse(使用Strawberry Perl)，但是我不确 ..

发布时间：2020-05-25 00:16:15 parsing pdf extract pdf-parsing 其他开发

解码PDF文档中的FlateDecoded文本部分

使用 peepdf 我正在分析两个简单的pdf文件.这两个文件都包含一行文本("ZYXWVUTSRQQRSTRSTWWXYZ")，并且是在Mac OS X上创建的. 第一个文件是使用TextEdit创建的.只有三个流，查看第一个流(使用peepdf自动解码)可以清楚地看到文本. PPDF> stream 4 q Q q 72 707.272 468 12.72803 re W n / ..

发布时间：2020-05-13 01:45:41 pdf ms-word deflate textedit pdf-parsing 其他开发

pdf解析为java中的文本

我有一个阿拉伯语PDF，我想用Java将其解析为文本文档。我已经尝试了很多次，英语单词解析成功，但阿拉伯语单词没有。任何人都可以推荐一个能够正确转换阿拉伯语单词的解决方案吗？解决方案我认为你可以使用使用Java进行pdf操作的iText 。它也支持阿拉伯语。 ..

发布时间：2019-01-08 12:06:11 java pdf ocr pdf-parsing Java开发

PDFTextStripper解析错误的编码

PDFTextStripper stripper = new PDFText2HTML（encoding）; String result = stripper.getText（document）.trim（）; 结果包含类似 ..

发布时间：2018-12-24 12:11:51 java pdf pdfbox pdf-parsing Java开发

使用Itext从pdf检索图像时出错

我有一个 PDF ，我想从中检索图像注意：在文档中，这是 RESULT 变量 public static final String RESULT =“results / part4 / chapter15 / Img％s。％s”; 我不明白为什么需要这个图片？我只想从我的 PDF file 所以现在当我使用 MyImageRenderList ..

发布时间：2018-11-16 17:34:45 java pdf itext pdf-parsing Java开发

如何使用C＃检查是否在非表格PDF上选中了复选框？

使用c＃，我想查看是否在PDF页面上选中了特定的复选框。 PDF文件不一个表格。 PDF可能是这样的：示例文件在这里： MDS30ResidentP2.pdf （在此示例文件中，我想以某种方式弄清楚问题A1000中的复选框”E“是否已被检查。再次： PDF不是“格式”格式！）。 PS：以下帖子都没有解决我的问题： PDF解析提取CheckBox字段值 iTextSha ..

发布时间：2018-11-16 17:29:58 c# pdf itextsharp pdf-parsing C#/.NET

pdf-parsing相关内容