pdftotext相关内容

IText 像 pdftotext -layout 一样阅读 PDF?

我正在寻找最简单的方法来实现一个类似于 输出的安静的 java 解决方案 pdftotext -layout FILE 在Linux机器上.(当然它也应该便宜) 我刚刚尝试了一些 IText、PDFBox 和 PDFTextStream 的代码片段.迄今为止最准确的解决方案是 PDFTextStream,它使用 VisualOutputTarget 来获得我的文件的完美表示. 所 ..
发布时间:2021-12-14 15:40:44 Java开发

Solr 索引 PDF 文档并将它们发布到远程服务器

嗨,当谈到 Solr 时,我是一个天真的用户.请指导我解决以下障碍. 1) Solr 索引 PDF 文档 尝试过的解决方案 我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件.现在我正在尝试编写一个 Java 代码来将文档索引到 Solr. 2) 将它们发布到远程服务器 我需要将文档或索引发布到中央远程服务器.可以为此使用 curl ..
发布时间:2021-11-14 23:48:24 其他开发

如何使用AWS Lambda通过python将pdf文件转换为.txt

我需要使用python 3.7中的AWS lambda自动将许多pdf转换为文本文件 我已经在自己的计算机上使用poppler/pdftotext,tika和PyPDF2成功转换了pdf文件.但是,tika超时或需要在主机上运行Java实例,但我不确定该如何设置.pdftotext需要poppler,并且所有在lambda上运行该解决方案的解决方案似乎都已过时,或者我只是对二进制文件不够熟悉 ..
发布时间:2021-04-03 19:33:54 Python

从本地计算机更改为虚拟主机时,从python脚本调用pdftotext不起作用

我写了一个小的python脚本来从PDF解析/提取信息.我在本地计算机上对其进行了测试,我具有python 2.6.2和pdftotext版本0.12.4. 我正在尝试在我的虚拟主机服务器(dreamhost)上运行它.它具有python版本2.5.2和pdftotext版本3.02. 但是当我尝试运行该脚本时,我在pdftotext行中收到以下错误(我也用一个简单的废弃脚本进行了检查 ..
发布时间:2020-07-02 20:03:17 Python

使用PdfMiner和PyPDF2合并列提取文本

我正在尝试使用pdfMiner解析pdf文件文本,但是提取的文本被合并了.我正在使用以下链接中的pdf文件. PDF文件 我对任何类型的输出(文件/字符串)都很好.这是为我返回提取的文本作为字符串的代码,但由于某些原因,列被合并. from pdfminer.converter import TextConverter from pdfminer.layout import LA ..
发布时间:2020-07-02 20:02:09 Python

在Heroku上安装pdftotext库

pdftotext库是requirements.txt中的要求.尝试推送到heroku时,出现以下错误: remote: Running setup.py install for pdftotext: started remote: Running setup.py install for pdftotext: finished with status ..
发布时间:2020-07-02 20:02:03 Python

由于poppler无法在Windows上安装pdftotext

我正在尝试在Windows上安装pdftotext: pip install pdftotext 最初失败是因为缺少MS Visual Studio(现已安装),现在失败了,并出现了poppler问题.我已经下载了poppler并将其安装在 中 C:\Program Files (x86)\poppler 我的路径包括此目录. 安装失败并显示错误 我在程序文件(x86)中找 ..
发布时间:2020-05-27 23:09:16 其他开发

使用pdf.js在pdf到文本转换中将换行符显示为`\ n`

我使用了本教程中的代码在此站点上浏览了所有内容 https://mozilla.github.io/pdf.js/获取有关如何设置转换格式的一些提示,但找不到任何内容.我只是想知道是否有人在使用pdf.js解析文本时如何将换行符显示为\n的想法. 先谢谢了. 解决方案 在PDF中,没有诸如使用控制字符(例如'\ n')控制布局的事情-使用精确坐标定位PDF中的字形.使用文本y坐标(可 ..
发布时间:2020-05-25 05:10:49 前端开发

从PDF提取表格数据

是否存在从PDF文件提取表格的一致方法?有什么工具吗? 我到目前为止所做的事情: 我已经尝试过pdftotext工具.它具有转换为HTML布局的选项. 这是什么问题: 表信息未保留在HTML输出中 我期望使用 标签,但所有内容都在 标签下. PDF文档中是否会有任何标记来指示表格结构?像HTML中的 ,和一样? 如果 ..
发布时间:2020-05-25 04:07:09 其他开发

PDFBox 0.7.3将pdf转换为文本

我想将pdf文件转换为文本文件,但某些pdf文件不适用于pdfbox dll,因为Acrobat的版本比Acrobat 5.x更新 请告诉我我的工作? output.WriteLine(“Begin Parsing .....”); output.WriteLine(DateTime.Now.ToString()); PDDocument doc = PDDocument ..
发布时间:2018-11-16 17:37:45 C#/.NET

itext java pdf to text creation

我使用itext将pdf转换为文本文件, 它实际上运行良好但是对于某些单词它执行以下操作: 例如在pdf中有短语如“呈现主要想法”但是itext创建了一个像 “presentthemainideas”的输出。反正有没有纠正这种行为? 字符串pdf =“/ home / can / Downloads / NLP / textSummarization /一种新方法for Multi-D ..
发布时间:2018-11-16 16:25:11 Java开发

IText阅读PDF格式如pdftotext -layout?

我正在寻找一种最简单的方法来实现一个类似于输出的安静的java解决方案 pdftotext -layout FILE Linux机器上的 。 (当然它也应该便宜) 我刚试了一些IText,PDFBox和PDFTextStream的代码片段。到目前为止,最准确的解决方案是PDFTextStream,它使用VisualOutputTarget来获得我文件的绝佳表示。 ..
发布时间:2018-11-16 16:22:25 Java开发