pdf-extraction相关内容

使用Python从扫描的pdf中提取PDF数据

我正在用tesseract OCR从扫描的pdf中提取数据,我能够提取数据,但精度不是很好。在很多地方,它显示错误的数据,所以我可以100%准确地获取数据。 首先我将pdf转换为jpg格式,然后使用tesseract模块从图像中提取数据。 from PIL import Image import pytesseract text=(pytesseract.image_to_strin ..
发布时间:2022-03-27 15:50:42 其他开发

如果识别 PDF 文档中的文本结构如此困难,那么 PDF 阅读器是如何做到的?

我一直在尝试编写一个简单的控制台应用程序或 PowerShell 脚本来从大量 PDF 文档中提取文本.有几个库和 CLI 工具可以做到这一点,但事实证明,没有一个能够可靠地识别文档结构.我特别关心文本列的识别.即使是非常昂贵的 PDFLib TET 工具也经常会混淆相邻两列文本的内容. 人们经常注意到 PDF 格式没有任何列的概念,甚至没有单词.SO上类似问题的几个答案提到了这一点.这个问 ..
发布时间:2021-12-14 16:01:58 其他开发

Pdfplumber 无法识别表 python

我使用 Pdfplumber 提取第 2 页第 3 节中的表格(通常).但它仅适用于某些 pdf,其他则不起作用.对于失败的 pdf 文件,似乎 Pdfplumber 读取按钮表而不是我想要的表. 我怎样才能拿到桌子?无效的pdf链接:pdfA 有效的 pdf 链接:pdfB 这是我的代码: import pdfplumberpdf = pdfplumber.open("/Us ..
发布时间:2021-09-04 19:15:37 Python

如何在 Python 3.7 中从 pdf 中提取文本

我正在尝试使用 Python 从 PDF 文件中提取文本.我的主要目标是我正在尝试创建一个程序来读取银行对账单并提取其文本以更新 excel 文件以轻松记录每月支出.现在我只专注于从 pdf 文件中提取文本,但我不知道该怎么做. 目前将 PDF 文件中的文本提取为字符串的最佳和最简单的方法是什么?今天最好使用哪个库,我该怎么做? 我曾尝试使用 PyPDF2,但每次我尝试使用 extra ..
发布时间:2021-06-28 19:05:36 Python

使用CID字体从PDF中提取文本

我正在编写一个Web应用程序,该应用程序在PDF中每页的顶部提取一行.这些PDF来自不同版本的产品,并且可以通过许多PDF打印机使用,它们的版本也不同,设置也不同. 到目前为止,我已经使用PDFSharp和iTextSharp设法使它适用于所有版本的PDF.我的困扰是使用具有CID字体(Identity-H)的文档. 我已经编写了部分解析器来查找字体表参考和文本块,但是将它们转换为可读 ..
发布时间:2020-11-09 19:43:25 其他开发

使用Camelot查找PDF尺寸

我正在使用Camelot读取完整的PDF,并从每个PDF中提取大约112个属性. 我使用表格区域提取属性 test_variable = camelot.read_pdf(filename, flavor='stream', table_areas=['38, 340 ,50, 328']) 问题是在所有文档中,同一属性的表区域不是恒定的.有 ..
发布时间:2020-07-24 21:44:43 Python

iTextSharp提取每个字符并获取getRectangle

我想按字符解析整个PDF字符,并能够获取该PDF文档上该字符的ASCII值,字体和矩形,以后可以将其另存为位图.我尝试使用PdfTextExtractor.GetTextFromPage,但这将PDF中的整个文本作为字符串提供. 解决方案 与iTextSharp捆绑在一起的文本提取策略(特别是LocationTextExtractionStrategy默认情况下由PdfTextExtrac ..
发布时间:2020-06-26 20:19:18 其他开发

iTextSharp将包装的单元格内容提取到新行中-您如何确定给定的包装数据现在属于哪一列?

我正在使用iTextSharp从pdf提取数据. 我偶然发现了以下场景所描述的以下问题: 我创建了一个示例excel文件来说明.看起来是这样的: 我使用那里提供的许多免费在线转换器之一将其转换为pdf,生成的pdf看起来像(当我生成pdf时,我并未将样式应用于excel): 现在,使用iTextSharp从pdf中提取数据,将以下字符串作为提取的数据返回给我: 如您所见,包装的单元格数 ..
发布时间:2020-06-26 20:07:46 其他开发

如何将pdf表单字段自动导出到xml

我有一个 pdf 文件,其中包括表单字段,需要将数据导出到 xml 文件自动。这是我创建的要测试的示例表单的屏幕: 注意:单击Acrobat Professional,通过单击手动手动将其导出非常有用。工具>表格>导出表单数据,最后选择xml扩展名作为文件输出。这是我手动导出时得到的结果: ..
发布时间:2020-06-01 00:42:03 Java开发

pdf文件中的抓取抓取数据

我想知道如何使用scrapy抓取pdf文件中的数据.我应该使用哪个模块,哪个是最佳和有效的方式?您能给我一些示例教程吗 谢谢! 解决方案 我建议您使用Scrapy获取PDF并使用 PyPDF2 即可获取PDF内的内容. 有关完整但有些古老(使用pyPDF)的示例,请查看 ..
发布时间:2020-05-25 04:45:01 Python

如何在python 3.7.3中从pdf提取文本

我正在尝试使用Python从PDF文件中提取文本.我的主要目标是尝试创建一个读取银行对帐单并提取其文本以更新Excel文件以轻松记录每月支出的程序.现在,我只专注于从pdf文件中提取文本,但是我不知道该怎么做. 当前将PDF文件中的文本提取为字符串的最佳和最简便的方法是什么?今天最适合使用哪种库,我该怎么办? 我尝试使用PyPDF2,但是每次尝试使用extractText()从任何页面 ..
发布时间:2020-05-25 04:28:54 Python

如何从pdf中提取特定标题下的文本?

我想使用python从pdf中提取特定标题下的文本. 例如,我有一个标题为Introduction,Summary,Contents的pdf文件.我只需要提取“摘要"标题下的文本即可. 我该怎么做? 解决方案 这种情况正是我目前在公司工作的情况.我们需要提取标题下的文本.我个人使用的是基于规则的系统,即在逐行阅读整个文档后,使用正则表达式来识别所有编号的标题.找到标题后,请输入 ..
发布时间:2020-05-25 04:27:33 其他开发

如果识别PDF文档中的文本结构非常困难,那么PDF阅读器如何做得如此之好?

我一直在尝试编写一个简单的控制台应用程序或PowerShell脚本来从大量PDF文档中提取文本。有几个库和CLI工具可以实现这一点,但事实证明,没有一个能够可靠地识别文档结构。特别是我关注文本列的识别。即使非常昂贵的PDFLib TET工具也经常混淆两个相邻文本列的内容。 经常注意到PDF格式没有列的任何概念,甚至没有单词。关于SO的类似问题的几个答案提到了这一点。问题是如此之大,以至于它甚 ..
发布时间:2018-11-16 16:27:14 其他开发