pdf-scraping - IT屋-程序员软件开发技术分享社区

用于将 PDF 转换为文本的 Python 模块

是否有任何python模块可以将PDF文件转换为文本?我尝试了一段代码在使用 pypdf 的 Activestate 中找到，但生成的文本之间没有空格并没有用. 解决方案尝试 PDFMiner.它可以从 PDF 文件中提取 HTML、SGML 或“标记 PDF"格式的文本. Tagged PDF 格式似乎是最干净的，去掉 XML 标签只留下裸文本. Python 3 版本位 ..

tm readPDF:文件错误(con，“r"):无法打开连接

我已经尝试了 tm::readPDF 文档中推荐的示例代码: 图书馆(tm)if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) {uri ..

发布时间：2021-09-08 20:08:31 r tm pdf-scraping 其他开发

R 中的 Tabulizer 包:如何在特定标题后抓取表格

如何从 PDF 中抓取带有一些标题文本的表格?我正在试验 tabulizer 包.这是从特定页面获取表格的示例(波兰语“公共卫生需求地图") 库(制表器)图书馆(tidyverse)选项(java.parameters =“-Xmx8000m")位置 ..

发布时间：2021-09-07 19:36:45 r web-scraping tidyverse pdf-scraping tabulizer 其他开发

使用 R 识别 PDF 表格

我正在尝试从一些 pdf 报告中的表格中提取数据. 我已经看到一些使用 pdftools 和类似软件包的示例，我成功获取了文本，但是，我只想提取表格. 有没有办法使用 R 来识别和提取表格? 解决方案好问题，我最近也在想同样的事情，谢谢！我做到了，使用 tabulizer ‘0.2.2’ 正如 @hrbrmstr 所建议的那样.如果您使用 R >3.5.x，我提供以下 ..

发布时间：2021-09-06 19:40:06 r text-mining pdf-scraping 其他开发

如何使用 Python 抓取 PDF；仅特定内容

我正在尝试从网站上可用的 PDF 中获取数据 https://usda.library.cornell.edu/concern/publications/3t945q76s?locale=en 例如，如果我查看 2019 年 11 月的报告 https://downloads.usda.library.cornell.edu/usda-esmis/files/3t945q76s/ ..

发布时间：2021-07-16 22:05:54 python web-scraping scrapy tabula pdf-scraping Python

如何使用pdfminer3k读取pdf文件?

我正在使用 python 3.5，我想从 pdf 文件中逐行读取文本.试图使用 pdfminer3k 但没有在任何地方获得正确的语法.如何正确使用? 解决方案我已更正 Lisa 的代码.现在可以使用了！ fp = open(path, 'rb')从 pdfminer.pdfparser 导入 PDFParser, PDFDocument从 pdfminer.pdfinterp 导入 ..

发布时间：2021-06-26 20:46:39 python-3.x python-3.5 pdf-scraping 其他开发

如何在react-native中从pdf文件中提取内容

我正在做一个个人项目，我想要一个功能，我可以从文件系统中提取一个 pdf 文件并通过任何方式读取它的内容. 我尝试了所有可能的库，但没有任何效果，而且大多数库不再受支持. 顺便说一下，我正在 ios 上进行测试. 我的观点的一个例子是: ..

发布时间：2021-06-14 19:36:15 react-native parsing pdf pdf-scraping stripping 其他开发

我已经编写了从 PDF 文件中抓取所有数据的 Python 代码.这里的问题是，一旦被刮掉，单词就会失去语法.如何解决这些问题?我附上了代码. from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter从 pdfminer.converter 导入 TextConverter从 pdfminer.layout 导入 ..

发布时间：2021-06-12 18:35:14 python pdf ocr pdfminer pdf-scraping Python

以编程方式替换PDF中的文本

我有PDF文件，其中的文字应替换.更具体地说，应翻译文本并用翻译后的版本替换. 重要的是，其余的PDF结构保持完整.请注意，该文本在PDF中可用，并且不需要OCr之类的技术.另外，保留字体和其他文本属性也很好. 您建议使用哪个库将文本提取为易于编辑的格式(例如CSV)，然后重新放回新文本? 解决方案假定您要用其他语言替换文本，则在大多数情况下，您将不得不选择其他字体，并且字体选择并 ..

发布时间：2020-05-25 04:28:40 pdf pdf-scraping 其他开发

使用C#或经典ASP(VBScript)从PDF提取文本的好方法是什么?

是否有一个很好的库可用于从PDF中提取文本?如果需要的话，我愿意为此付费. 适用于C#或经典ASP(VBScript)的东西是理想的，而且我还需要能够将页面与PDF分开. 这个问题有一些有趣的东西，尤其是 pdftotext ，但我想避免调用外部命令行应用程序. 解决方案您可以使用Windows内置的IFilter接口从任何受支持的文件类型提取文本和属性(作者，标题等).这是 ..

发布时间：2020-05-25 04:11:15 pdf text-extraction pdf-scraping 其他开发

使用python处理pdf表

我正在处理pdf文件.该pdf中有许多表格. 根据pdf中提供的表格名称，我想使用python从该表格中获取数据. 我曾经从事过html，xlm解析，但从未使用过pdf. 谁能告诉我如何使用python从pdf中获取表格? 解决方案我最近遇到了类似的问题，并编写了一个库来帮助解决该问题: pdfquery . PDFQuery通过PDF创建一个元素树(使用pdfminer ..

发布时间：2020-05-25 03:56:01 python pdf pdf-scraping Python

从PDF python提取/识别表

是否有任何支持表识别和分析的开放源代码库?提取? 我的意思是: 确定表结构存在根据内容对表格进行分类以有用的输出格式从表中提取数据，例如JSON/CSV等我仔细研究了与此主题相关的类似问题，并发现了以下内容: PDFMiner 解决了问题3，但似乎用户需要向PDFMiner指定存在表结构的位置每张桌子(如果我输入错了，请纠正我) pdf-table-extrac ..

发布时间：2020-05-25 03:52:10 python pdf scrape pdf-scraping Python

用于将PDF转换为文本的Python模块

是否有任何python模块可将PDF文件转换为文本?我尝试了在Activestate中找到的一段代码，该代码使用pypdf，但生成的文本没有空格之间，没有任何用处. 解决方案尝试 PDFMiner .它可以从PDF文件中以HTML，SGML或"Tagged PDF"格式提取文本. 标记的PDF格式似乎是最干净的，而去掉XML标签只会留下纯文本. 可在以下位置找到Python ..

发布时间：2020-05-25 03:44:41 python pdf text-extraction pdf-scraping Python

刮除跨多个页面的大型pdf表

我正尝试抓取跨多页的PDF表.我尝试了很多事情，但最好的方法似乎是pdftotext -layout，这是在这里建议的.问题在于，结果文本文件不易于使用，因为表布局在页面之间有所不同，因此列未对齐.还要注意以“Solsonès"开头的行中缺少值: T ..

发布时间：2020-05-12 21:02:20 r perl ms-access pdf-scraping 其他开发

将数据从PDF文件读入R

那甚至有可能！?！我有一堆需要导入数据库的旧式报告.但是，它们都是pdf格式.是否有任何可以读取pdf的R软件包?还是应该将其留给命令行工具? 报告是用excel制作的，然后以pdf格式打印，因此它们具有规则的结构，但是有许多空白的“单元格". 解决方案对可能希望提取数据的其他人只是一个警告:PDF是一种容器，而不是一种格式.如果原始文档不包含实际文本，而不是文本的位图图像 ..

发布时间：2020-05-01 10:39:49 linux r pdf scrape pdf-scraping 服务器开发

iTextSharp PDF使用C＃读取高亮度文本（突出显示注释）

我正在开发一个C＃winform应用程序，它将pdf内容转换为文本。除了在pdf的突出显示文本中找到的内容之外，提取所有必需的内容。请帮助获取工作样本以提取pdf中的突出显示文本。我在项目中使用iTextSharp.dll 解决方案假设你在谈论评论。请试试这个： for（int i = pageFrom; i ..

发布时间：2018-11-16 16:43:34 pdf itextsharp pdf-scraping 其他开发

如何将PDF转换为HTML？

使用任何通用语言，将PDF转换为HTML有什么好的库？ html提取能力。 http://pdfbox.apache.org/ ..

发布时间：2018-06-13 17:34:35 html pdf pdf-scraping 前端开发

pdf-scraping相关内容