pdf-parsing相关内容

Ruby:阅读 PDF 文件

我正在寻找一种快速可靠的方法来读取/解析 Ruby 中的大型 PDF 文件(在 Linux 和 OSX 上). 直到现在我发现了相当古老和简单的PDF-toolkit(一个PDF-toolkit="http://en.wikipedia.org/wiki/Pdftotext" rel="noreferrer">pdftotext-wrapper) 和 PDF 阅读器,它无法读取我的大部分文件 ..
发布时间:2021-12-14 15:51:29 其他开发

如何使用 Python 从 PDF 中提取表格作为文本?

我有一个包含表格、文本和一些图像的 PDF.我想在 PDF 中有表格的地方提取表格. 现在正在手动从页面中查找表格.从那里我捕获该页面并保存到另一个 PDF 中. 导入 PyPDF2PDFfilename = "Sammamish.pdf" #PDF 的文件名/存储 PDF 的目录pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #Pd ..
发布时间:2021-12-14 15:23:53 Python

解析二进制文件时出错...(主要是 PDF)

我正在尝试通过对二进制文件使用 ByteArrayInputStream 来使用 Apache Tika 解析 pdf 文件......并且开始出现一些 pdf 文件的错误,而对于一些它解析得很好.. 早些时候我能够解析相同的pdf 文件使用 Tika,但现在当我尝试使用 ByteArrayInputStream 时,我开始收到错误..我认为 ByteArray 存在一些问题这是我得到的错误.. ..
发布时间:2021-11-14 23:48:11 Java开发

pdf2txt 的输出中的 (cid:51) 是什么?

所以我想从 pdf 文件中提取文本,我需要它的位置、宽度、高度、字体. 我尝试了很多,但最有用和最完整的解决方案看起来是 PDFMiner,在这种情况下,更准确地说是 pdf2txt.py. 我已经按照文档和示例进行操作,并尝试使用以下命令从我的 pdf 中提取文本 Learn More: pdf2txt.py -Y 正常 -t xml -o 按钮.xml 按钮.pdf 输出 bu ..
发布时间:2021-10-01 19:17:08 Python

Apache PDFBox 删除字符之间的空格

我们正在使用 PDFBox 从 PDF 中提取文本. 某些 PDF 的文本无法正确提取.下图显示了 PDF 中的一部分作为图像: 文本提取后,我们得到以下文本: 3, 8 5 EU R 1 Netto 38,50 EUR 4,00 (','和'8'之间加空格) 这是我们的代码: PDDocument pdf = PDDocument.load(reuseableInput ..
发布时间:2021-06-15 18:30:27 其他开发

获取图像的极右,左,上,下位置-Itext

我正在为pdf设置边距,并检查页面内容是否超出了边距. 如果页面的内容仅仅是文本,我很容易做到这一点. 这是我在做什么: 我正在使用TextMarginFinder.我将根据书的大小设置 pdf的left margin值.并检查finder.getLlx();,因为finder.getLlx();将使我在该页面中文本的最左侧位置. TextMarginFinder find ..
发布时间:2021-02-09 19:50:51 Java开发

CGPDF< ...> -二传手在哪里?

是否可以使用CGPDF创建PDF对象(例如,具有自定义PDF生产者/消费者/查看者需要的参数的PDF字典)还是我必须编写自己的解析器并创建新的预告片,外部参照等,以便将新对象添加到PDF?据我了解,CG在创建PDF时会将其图形上下文的所有图形调用转换为正确的PDF副本-但我有应存储在PDF中的自定义数据/对象(例如用于注释,线程等),但显然 我只能找到所有这些吸气剂 从a中获取数据字典 ..
发布时间:2020-10-09 23:52:48 移动开发

使用functools.partial为pdfquery创建自定义过滤器获取属性错误

背景 我正在使用pdfquery解析多个文件,例如问题 我正在尝试编写通用化的filer函数,以中提到的自定义选择器为基础pdfquery的文档,可以采用特定范围作为参数.因为引用了this,所以我想我可以通过使用functools.partial提供部分函数来解决此问题(如下所示) 输入 import pdfquery import functools def load ..
发布时间:2020-05-25 05:32:25 Python

从PDF中提取表格

我正在尝试从pdf 文档 我尝试了pdf-> html->提取表的路由.我在上面提到的pdf转换为html时会产生垃圾,可能是因为字体的原因,该文档不是英文的. 使用x和y坐标提取pdf并不是一种选择,因为此解决方案需要从上面提到的网址中获取将来的pdf,它将具有表格,但并不总是在同一位置. 请帮助 谢谢. 解决方案 PDF不包含显式表数据.它只包含我们倾向于解释为 ..
发布时间:2020-05-25 04:25:36 Python

Ruby:读取PDF文件

我正在寻找一种快速,可靠的方式来读取/解析Ruby中的大型PDF文件(在Linux和OSX上). 直到现在,我已经找到了相当古老而简单的 PDF工具包( ="http://en.wikipedia.org/wiki/Pdftotext" rel ="noreferrer"> pdftotext -包装器)和 PDF阅读器,无法读取我的大部分文件.尽管这两个库提供了我一直在寻找的功能. ..
发布时间:2020-05-25 03:48:49 其他开发

解析二进制文件时出错...(主要是PDF)

我正尝试使用ByteArrayInputStream来使用Apache Tika解析二进制文件中的pdf文件...并开始对某些pdf文件出错,并且某些文件的解析非常好.使用Tika的pdf文件,但是现在当我尝试使用ByteArrayInputStream时,我开始出现错误..我认为ByteArray出现了一些问题.这就是我得到的错误. org.apache.tika.exception.Ti ..
发布时间:2020-05-25 01:42:46 Java开发

从PDF文件集中提取表格内容

我有一堆PDF-可能数百或数千.它们的格式并非全部相同,但是它们中的任何一个都可能具有一个或多个表,这些表中包含我想收集到单独数据库中的有趣信息. 当然,我知道我必须写一些东西才能做到这一点. Perl是我的选择-也许是Java.只要是免费的,我就不在乎什么语言(或者免费试用,以确保它适合我的目的). 我正在查看CAM :: Parse(使用Strawberry Perl),但是我不确 ..
发布时间:2020-05-25 00:16:15 其他开发

解码PDF文档中的FlateDecoded文本部分

使用 peepdf 我正在分析两个简单的pdf文件.这两个文件都包含一行文本("ZYXWVUTSRQQRSTRSTWWXYZ"),并且是在Mac OS X上创建的. 第一个文件是使用TextEdit创建的.只有三个流,查看第一个流(使用peepdf自动解码)可以清楚地看到文本. PPDF> stream 4 q Q q 72 707.272 468 12.72803 re W n / ..
发布时间:2020-05-13 01:45:41 其他开发

pdf解析为java中的文本

我有一个阿拉伯语PDF,我想用Java将其解析为文本文档。我已经尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。 任何人都可以推荐一个能够正确转换阿拉伯语单词的解决方案吗? 解决方案 我认为你可以使用使用Java进行pdf操作的iText 。它也支持阿拉伯语。 ..
发布时间:2019-01-08 12:06:11 Java开发

使用Itext从pdf检索图像时出错

我有一个 PDF ,我想从中检索图像 注意: 在文档中,这是 RESULT 变量 public static final String RESULT =“results / part4 / chapter15 / Img%s。%s”; 我不明白为什么需要这个图片?我只想从我的 PDF file 所以现在当我使用 MyImageRenderList ..
发布时间:2018-11-16 17:34:45 Java开发

如何使用C#检查是否在非表格PDF上选中了复选框?

使用c#,我想查看是否在PDF页面上选中了特定的复选框。 PDF文件不一个表格。 PDF可能是这样的: 示例文件在这里: MDS30ResidentP2.pdf (在此示例文件中,我想以某种方式弄清楚问题A1000中的复选框”E“是否已被检查。再次: PDF不是“格式”格式!)。 PS:以下帖子都没有解决我的问题: PDF解析提取CheckBox字段值 iTextSha ..
发布时间:2018-11-16 17:29:58 C#/.NET