pdf-conversion相关内容

使用PdfBox将PDF转换为图像

当使用Pdfbox将PDF(可填充)转换为Jpeg时。复选框中的勾号将转换为方框字符 警告[org.apache.pdfbox.rendering.Type1Glyph2D]代码52没有字形 (A20)字体为ZapfDingbats 公共静态空Main(字符串[]args)引发异常{ try (final PDDocument document = PDDocument. ..
发布时间:2022-04-25 19:12:56 其他开发

如何使用 pdf.js

我正在考虑使用 pdf.js(一种允许嵌入 pdf 的开源工具在网页中).没有任何关于如何使用它的文档. 我假设我所做的是使用标题中引用的脚本制作一个 html 页面,然后在正文中,我使用包含文件名和位置的数组进行某种函数调用.有人可以帮我吗? 解决方案 Try Google'ing pdf.js 文档 /* 创建 PDF 文档 */var doc = new pdf();doc. ..
发布时间:2021-12-14 15:50:50 前端开发

如何使用python从文件夹中的pdf中提取文本并将它们保存在数据框中?

我有很多文件夹,每个文件夹都有几个 pdf 文件(还有其他文件类型,如 .xlsx 或 .doc).我的目标是提取每个文件夹的 pdf 文本并创建一个数据框,其中每个记录都是“文件夹名称".每一列以字符串形式代表该文件夹中每个pdf文件的文本内容. 我设法使用 tika 包(下面的代码)从一个 pdf 文件中提取文本.但不能循环迭代文件夹或其他文件夹中的其他pdf以构建结构化数据框. ..
发布时间:2021-11-14 23:46:54 Python

如何将 Xamarin.Forms XAML UI 页面转换为 PDF 文件?

在 Xamarin.Forms 中,我想将我的 xaml 页面 UI(有时我的页面在有更多内容时可滚动)转换为 PDF.我试过 PDFSharp (https://github.com/akgulebubekir/PDFSharp.Xamarin.Forms) 开源.但它仅适用于 UWP,并且在 iOS 和 Android 中存在一些问题. 那么是否有任何免费的开源插件可以在所有三个平台中将 ..
发布时间:2021-09-29 20:07:03 其他开发

如何修改这个 1992 年的纯文本到 PDF 转换 PostScript 以实际指定页面大小?

我正在尝试将纯文本文档转换为 PDF.唯一接近实际工作的方法是安装“GhostScript",然后使用以下 PostScript 脚本,由 SE 用户 @RedGrittyBrick(感谢)挖掘,该脚本采用纯文本文档(在脚本下方)并生成 PDF来自它. 它在技术上是有效的,但在视觉上混淆了每个页面的顶部和左边距,使得顶部边距变得“太多"而左边距“有点太适合"(与右侧相比)利润).至少在 Su ..
发布时间:2021-06-19 18:52:13 其他开发

Java Excel到PDF转换

我需要将 xlsx 文档转换为 pdf 格式.我知道 iText 可以保存pdf文档,而 Docx4j 可以读写xslx.实际上,我们的应用程序都使用这两种方法来生成报告.但是我们有非常困难的模板,所以我不能只读取xslx(docx4j)并将其写入pdf(iText).格式将丢失,因此我需要另一个转换库.我也听说过类似( Jxcell 的商业库,但想要使用开源解决方案. 有人可以帮助我吗? ..
发布时间:2021-05-05 20:21:53 Java开发

复杂的Web应用程序上的ConversionInputException

当我在特定的转换器上调用 execute()或 schedule()方法时,我得到了 ConversionInputException . 我认为代码是正确的,因为如果我将代码作为一个简单的Java应用程序执行,那么它可以与输入相同的文件完美地工作. 当我将代码部署为jar并从复杂的Web应用程序中调用代码时,我总是会遇到此 ConversionInputException . ..
发布时间:2021-05-02 20:09:35 Java开发

Amyuni的“打印机未激活"是什么?错误是什么意思?

当我从Amyuni PDF Converter(PDF打印机驱动程序)得到这些错误时,这是​​什么意思 “未激活打印机,错误代码-20" “未激活打印机,错误代码-21" “未激活打印机,错误代码-22" “未激活打印机,错误代码-30" “未激活打印机,错误代码-40" “未激活打印机,错误代码-41" 解决方案 错误代码-20:无法读取被许可方的名称 ..
发布时间:2021-04-29 20:30:14 其他开发

如何使用python从文件夹中的pdf中提取文本并将其保存在dataframe中?

我有很多文件夹,每个文件夹中都有几个pdf文件(也有其他文件类型,例如.xlsx或.doc).我的目标是为每个文件夹提取pdf文本并创建一个数据框,其中每个记录都是“文件夹名称".并且每一列以字符串形式表示该文件夹中每个pdf文件的文本内容. 我设法用 tika 包(下面的代码)从一个pdf文件中提取了文本.但是无法循环访问该文件夹或其他文件夹中的其他pdf,从而构造出结构化的数据框. ..
发布时间:2021-04-08 20:33:25 Python

Ghostscript.NET多线程问题

我们运行的每月流程中最长的部分是自动切片并将某些PDF转换为图像.读取每个PDF并将其转换为3个不同的PDF,然后将这3个PDF转换为图像以将其放置在发送给客户的电子邮件中.这些PDF每个客户都是唯一的,我们每月向至少15,000个(通常更像是22k)客户发送PDF. 我们的PDF生成和切片已经是多线程的,但是我一直在研究如何并行化其余部分. 为此,我将我们的过程转换为使用Ghosts ..
发布时间:2020-07-02 19:55:38 C#/.NET

使用Google脚本编辑器将PDF转换为Doc

我希望使用Google脚本编辑器在Drive中将PDF转换为Google Doc.但是,不断收到错误消息“不支持从应用程序/pdf转换为应用程序/doc".可以在脚本中进行此转换吗?我的尝试如下,很高兴听到任何建议. function convertdPDF2doc() { var pdffile = DriveApp.getFileById(); var pdfblob = pdf ..
发布时间:2020-07-02 19:55:36 其他开发

PDF压缩库/工具

我正在做一个项目,以减小PDF的大小,并将其压缩.我想知道市场上是否有任何非常好的工具/库(.NET). 我没有尝试过类似Onstream Compression的工具,但结果并不令人满意. 解决方案 可以轻松地从PDF中挤出一些额外的(兆)字节.例如,众所周知的"PDF32000_2008.pdf" 是否已充分优化?文件大小为8,995,189字节.它使用对象和外部参照流,(几乎)没有图 ..
发布时间:2020-05-25 04:59:58 其他开发

扫描文档(TIFF和PDF)的扫描仪的最佳设置

为了扫描文档(白色和黑色文本)并将其用于OCR转换(以获得最佳结果),扫描仪的最佳设置是什么?PDF和TIFF格式的标准设置和规范是什么? 解决方案 对于OCR,最佳扫描设置为: 常规文本分辨率为300 dpi,特别小的字体(精细打印)分辨率为400 dpi 布莱克&白色代表文字,灰度代表小字体,颜色代表图片 TIFF格式. Group4用于黑白白色(非常小的文件大小).如果需要 ..
发布时间:2020-05-19 19:26:48 其他开发

在将Office文档转换为PDF时需要输入

我正在尝试[从命令行或C#中的类库]将文档,excel文件等转换为pdf.无需使用Interop或在计算机上安装任何办公产品. 有人做过这样的事情吗?或有什么想法? 我们遇到的所有解决方案似乎都需要互操作 谢谢 解决方案 如果有帮助,请参阅此文章: 转换并在C#中将Office文件合并为一个PDF文件 using System.Drawing; using Syst ..
发布时间:2020-05-13 00:57:57 C#/.NET

将Word文档转换为不需要安装Office的PDF的最佳程序/API是什么?

好吧,问题的标题说明了一切.关于SO已经有类似的问题.但是这里有些区别...我绝对不能在服务器上使用Office.我必须能够以编程方式转换文档.我并不在乎它要花多少钱.显然,便宜是更好的选择,但是如果您有一个很好的建议,那就是价格昂贵,请随时添加. ------编辑------ 我接受了OpenOffice.org的答案,因为它似乎是最吸引人的.但是,我真的很好奇其他人的想法.继续发布 ..
发布时间:2020-05-13 00:54:49 其他开发

如何使用pdf.js

我正在考虑使用 pdf.js (一种允许嵌入pdf的开源工具)在网页中)。没有关于如何使用它的任何文档。 我假设我做的是使用标题中引用的脚本创建一个html页面,然后在正文中,我把一些函数调用与文件名和位置的数组。任何人都可以帮我吗? 解决方案 试试谷歌 pdf.js文档 / *创建PDF文档* / var doc = new pdf() ; doc.text(2 ..
发布时间:2019-01-24 00:03:09 前端开发

使用Itext将Pdf页面转换为Byte数组

我的问题 我正在寻找一种方法将单个pdf页面转换为byte [](如每个pdf的一个字节[]然后我可以将它们转换为BufferedImage []。 这样,所有转换都在内存中完成,而不是制作临时文件,它更快,更少杂乱。我也可以稍后使用字节数组进行服务调用。如果我可以将库只用于itext会很好,但是,如果没有其他方法,我会对其他库开放。 我现在拥有什么 这是我目前的代码 ..
发布时间:2018-11-16 17:15:40 Java开发