pdftotext - IT屋-程序员软件开发技术分享社区

TExtract：失败，退出代码127//Windows 10//pdftotext

当我试图运行我的(在使用pyinstaller部署之后)程序来读取和转换PDF文件并将其输入到Google工作表中时。我得到了下图中显示的错误。然而，我似乎想不出问题是什么： Exception in Tkinter callback Traceback (most recent call last): File "C:Users rpfinanceAppDataLocalProgram ..

发布时间：2022-03-24 10:55:16 python pyinstaller file-not-found pypdf pdftotext Python

如何等待流完成管道?(节点)

我有一个 for 循环的 promise 数组，所以我使用 Promise.all 来遍历它们，然后调用 then. let promises = [];承诺.push(promise1);承诺.push(promise2);承诺.push(promise3);Promise.all(promises).then((responses) => {for (let i = 0; i {//从pd ..

发布时间：2021-12-14 20:42:25 node.js asynchronous promise pipe pdftotext 其他开发

IText 像 pdftotext -layout 一样阅读 PDF?

我正在寻找最简单的方法来实现一个类似于输出的安静的 java 解决方案 pdftotext -layout FILE 在Linux机器上.(当然它也应该便宜) 我刚刚尝试了一些 IText、PDFBox 和 PDFTextStream 的代码片段.迄今为止最准确的解决方案是 PDFTextStream，它使用 VisualOutputTarget 来获得我的文件的完美表示. 所 ..

发布时间：2021-12-14 15:40:44 java pdf itext pdftotext Java开发

Solr 索引 PDF 文档并将它们发布到远程服务器

嗨，当谈到 Solr 时，我是一个天真的用户.请指导我解决以下障碍. 1) Solr 索引 PDF 文档尝试过的解决方案我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件.现在我正在尝试编写一个 Java 代码来将文档索引到 Solr. 2) 将它们发布到远程服务器我需要将文档或索引发布到中央远程服务器.可以为此使用 curl ..

发布时间：2021-11-14 23:48:24 curl indexing solr apache-tika pdftotext 其他开发

如何使用AWS Lambda通过python将pdf文件转换为.txt

我需要使用python 3.7中的AWS lambda自动将许多pdf转换为文本文件我已经在自己的计算机上使用poppler/pdftotext，tika和PyPDF2成功转换了pdf文件.但是，tika超时或需要在主机上运行Java实例，但我不确定该如何设置.pdftotext需要poppler，并且所有在lambda上运行该解决方案的解决方案似乎都已过时，或者我只是对二进制文件不够熟悉 ..

发布时间：2021-04-03 19:33:54 python amazon-s3 aws-lambda pypdf2 pdftotext Python

从本地计算机更改为虚拟主机时，从python脚本调用pdftotext不起作用

我写了一个小的python脚本来从PDF解析/提取信息.我在本地计算机上对其进行了测试，我具有python 2.6.2和pdftotext版本0.12.4. 我正在尝试在我的虚拟主机服务器(dreamhost)上运行它.它具有python版本2.5.2和pdftotext版本3.02. 但是当我尝试运行该脚本时，我在pdftotext行中收到以下错误(我也用一个简单的废弃脚本进行了检查 ..

发布时间：2020-07-02 20:03:17 python scripting subprocess dreamhost pdftotext Python

在spawn中使用两个命令(使用pipe |)

我正在将内存中的doc转换为pdf(unoconv)，并在终端中使用以下命令打印(pdftotext): unoconv -f pdf --stdout sample.doc | pdftotext -layout -enc UTF-8 - out.txt 正在工作.现在我想将此命令与child_process.spawn一起使用: let filePath = "...", pr ..

发布时间：2020-07-02 20:02:13 node.js child-process spawn pdftotext unoconv 其他开发

无法在Python 3.6上安装pdftotext，缺少poppler

如何正确安装pdftotext? 在Python 3.6中安装pdftotext时，出现以下错误消息.我还尝试通过下载zip文件来手动安装该软件包，但仍然出现相同的错误. pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot open include file: 'poppler/cpp/poppler-document.h': ..

发布时间：2020-07-02 20:02:11 python installation pdftotext Python

使用PdfMiner和PyPDF2合并列提取文本

我正在尝试使用pdfMiner解析pdf文件文本，但是提取的文本被合并了.我正在使用以下链接中的pdf文件. PDF文件我对任何类型的输出(文件/字符串)都很好.这是为我返回提取的文本作为字符串的代码，但由于某些原因，列被合并. from pdfminer.converter import TextConverter from pdfminer.layout import LA ..

发布时间：2020-07-02 20:02:09 python pypdf pdftotext Python

使用R将PDF文件转换为文本文件以进行文本挖掘

我在一个文件夹中有近一千篇pdf期刊文章.我需要从整个文件夹中的所有文章摘要中获取文本信息.现在，我正在执行以下操作: dest ..

发布时间：2020-07-02 20:02:06 r text-mining tm pdftotext 其他开发

在Heroku上安装pdftotext库

pdftotext库是requirements.txt中的要求.尝试推送到heroku时，出现以下错误: remote: Running setup.py install for pdftotext: started remote: Running setup.py install for pdftotext: finished with status ..

发布时间：2020-07-02 20:02:03 python heroku pdftotext Python

由于poppler无法在Windows上安装pdftotext

我正在尝试在Windows上安装pdftotext: pip install pdftotext 最初失败是因为缺少MS Visual Studio(现已安装)，现在失败了，并出现了poppler问题.我已经下载了poppler并将其安装在中 C:\Program Files (x86)\poppler 我的路径包括此目录. 安装失败并显示错误我在程序文件(x86)中找 ..

发布时间：2020-05-27 23:09:16 qt pip pdftotext poppler 其他开发

使用pdf.js在pdf到文本转换中将换行符显示为`\ n`

我使用了本教程中的代码在此站点上浏览了所有内容 https://mozilla.github.io/pdf.js/获取有关如何设置转换格式的一些提示，但找不到任何内容.我只是想知道是否有人在使用pdf.js解析文本时如何将换行符显示为\n的想法. 先谢谢了. 解决方案在PDF中，没有诸如使用控制字符(例如'\ n')控制布局的事情-使用精确坐标定位PDF中的字形.使用文本y坐标(可 ..

发布时间：2020-05-25 05:10:49 javascript pdf pdf.js pdftotext 前端开发

struct.error:解压缩需要长度为16的字符串参数

在处理带有pdfminer(pdf2txt.py)的PDF 文件(2.pdf)时，以下错误: pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in if __name__ == '__main__': sys.exi ..

发布时间：2020-05-25 04:39:35 python pdf pdftotext pdfminer pdf-parsing Python

如何从命令行以CSV格式从PDF提取表数据?

我想从此处中提取所有行，而忽略列标题为以及所有页面标题，即Supported Devices. pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \ | sed '$d' \ | sed -r 's/ +/,/g; s/ ..

发布时间：2020-05-25 04:21:32 pdf grep pdftotext 其他开发

从PDF提取表格数据

是否存在从PDF文件提取表格的一致方法?有什么工具吗? 我到目前为止所做的事情: 我已经尝试过pdftotext工具.它具有转换为HTML布局的选项. 这是什么问题: 表信息未保留在HTML输出中我期望使用标签，但所有内容都在标签下. PDF文档中是否会有任何标记来指示表格结构?像HTML中的，和一样? 如果 ..

发布时间：2020-05-25 04:07:09 pdf pdftotext pdf-to-html 其他开发

如何等待流完成配管? (Node.js)

我有一个for循环的promises数组，所以我使用Promise.all来遍历它们，然后调用. let promises = []; promises.push(promise1); promises.push(promise2); promises.push(promise3); Promise.all(promises).then((responses) => { for (le ..

发布时间：2020-05-18 01:51:37 node.js asynchronous promise pipe pdftotext 其他开发

PDFBox 0.7.3将pdf转换为文本

我想将pdf文件转换为文本文件，但某些pdf文件不适用于pdfbox dll，因为Acrobat的版本比Acrobat 5.x更新请告诉我我的工作？ output.WriteLine（“Begin Parsing .....”）; output.WriteLine（DateTime.Now.ToString（））; PDDocument doc = PDDocument ..

发布时间：2018-11-16 17:37:45 c# itextsharp pdfbox pdftotext C#/.NET

itext java pdf to text creation

我使用itext将pdf转换为文本文件，它实际上运行良好但是对于某些单词它执行以下操作：例如在pdf中有短语如“呈现主要想法”但是itext创建了一个像 “presentthemainideas”的输出。反正有没有纠正这种行为？字符串pdf =“/ home / can / Downloads / NLP / textSummarization /一种新方法for Multi-D ..

发布时间：2018-11-16 16:25:11 java itext pdftotext Java开发

IText阅读PDF格式如pdftotext -layout？

我正在寻找一种最简单的方法来实现一个类似于输出的安静的java解决方案 pdftotext -layout FILE Linux机器上的。（当然它也应该便宜）我刚试了一些IText，PDFBox和PDFTextStream的代码片段。到目前为止，最准确的解决方案是PDFTextStream，它使用VisualOutputTarget来获得我文件的绝佳表示。 ..

发布时间：2018-11-16 16:22:25 java pdf itext pdftotext Java开发

pdftotext相关内容