pdfbox相关内容

使用 PDFBox 标记的 PDF

是否可以使用 PDFBox 创建带标签的 PDF(PDF/UA)?看起来 PDFBox 有一个 API(包 org.apache.pdfbox.pdmodel.documentinterchange.taggedpdf),但我找不到任何教程或代码示例. 使用下面的代码,我生成了一个包含图像的 PDF 文件,屏幕阅读器 NVDA(在我的例子中)识别它并读取“...图形替代描述".但是,可访问性 ..
发布时间:2021-11-26 19:11:14 Java开发

如何在 pdfbox 2.0.0 上的 truetype0font 中添加 unicode?

我一直在 Java 项目中使用 PDFBOX 2.0.0 版将 pdf 转换为文本. 我的一些 pdf 文件缺少 ToUnicode 方法,因此在我导出它们时它们会以乱码形式出现. 2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - 字体 MPBAAA+F1 中没有 694 (30) ..
发布时间:2021-11-25 19:25:15 Java Web开发

如何在 pdfbox 2.0.0 上的 truetype0font 中添加 unicode?

我一直在 Java 项目中使用 PDFBOX 2.0.0 版将 pdf 转换为文本. 我的一些 pdf 文件缺少 ToUnicode 方法,因此在我导出它们时它们会以乱码形式出现. 2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - 字体 MPBAAA+F1 中没有 694 (30) ..
发布时间:2021-11-25 19:25:06 Java Web开发

如何使用Apache pdfbox在PDF中生成多行

我正在使用 Pdfbox 使用 Java 生成 PDF 文件.问题是当我在文档中添加长文本内容时,它无法正确显示.仅显示其中的一部分.这也是在一行中. 我希望文本在多行中. 我的代码如下: PDPageContentStream pdfContent=new PDPageContentStream(pdfDocument, pdfPage, true, true);pdfConten ..
发布时间:2021-11-25 19:17:47 Java Web开发

如何以编程方式基于视觉差异比较两个 PDF?

我需要比较并获取两个 PDF 文件中的所有视觉差异.我知道在堆栈溢出时有一些与此相关的问题,但它们不能满足我的需要. 我目前正在使用 PDFBox 为 PDF 中的页面生成图像并比较图像的字节数. 通过这种方法,我能够知道特定页面是不同的. 但我需要了解一些更精细的细节,例如某些文本的字体大小,例如 - “文本"的页码不同,例如 PDF 中的 6. 不仅是文本,我还需要处理 ..
发布时间:2021-11-14 23:47:19 其他开发

使用 POI 或 Tika 提取文本,流到流,无需在内存中加载整个文件

我正在尝试单独使用 Apache POI 和 PDFBox,或者在 Apache Tika 的上下文中,从 MASSIVE Microsoft Office 和 PDF 文件(即在某些情况下数百兆)中提取和处理纯文本.此外,我的应用程序是多线程的,因此我将同时解析许多这些大文件. 在这种规模下,我必须以流式方式处理文件.在此过程中的任何步骤都不能将整个文件保存在主内存中. 我见过许多通 ..
发布时间:2021-11-14 23:46:45 其他开发

使用java比较两个pdf文件(方法)

我需要编写一个java类来比较两个pdf文件并指出差异(文本/位置/字体的差异)使用某种突出显示.我最初的方法是使用 pdfbox 使用 pdfbox 解析文件,并将提取的文本存储在一些有助于我进行比较的数据结构中.是否有任何可以提取文本、保留格式、帮助我进行索引和比较的 Java 库.我可以为此使用 tika/google 的 diff-match.tika 以 xhtml 的形式提取文本,但如 ..
发布时间:2021-11-14 23:46:26 其他开发

使用 Apache tika 删除 PDFont 缓存

我试图仅从许多不同的代码(rtf doc pdf)中提取文本.我很自然地求助于 Apache Tika,因为它可以自动检测文档并相应地提取文本.我只对文本感兴趣,对格式等不感兴趣. 我的应用程序最终出现了大内存泄漏,经过调查,这是来自 PDFBox 依赖项中 PDFFont 类的缓存.我对从 pdf 缓存 Fontmetrics 和其他字体格式问题不感兴趣,因为我只想提取文本. 我使用 ..
发布时间:2021-11-14 23:45:05 其他开发

PDFBox 的内存泄漏问题

我在我的应用程序中使用 PDF Box version 2.0.9.我必须从网络解析大型 pdf 文件.以下是我正在使用的代码 MimeDetector 类 @Getter@Setter类 MimeTypeDetector {私有 ByteArrayInputStream byteArrayInputStream;私有 BodyContentHandler bodyContentHand ..
发布时间:2021-11-14 23:44:47 其他开发

PDFBox 在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件,但在几个页面上似乎都在做同样的 ..
发布时间:2021-11-14 23:44:14 其他开发

使用 POI 或 Tika 提取文本,流到流,无需在内存中加载整个文件

我正在尝试单独使用 Apache POI 和 PDFBox,或者在 Apache Tika 的上下文中,从 MASSIVE Microsoft Office 和 PDF 文件(即在某些情况下数百兆)中提取和处理纯文本.此外,我的应用程序是多线程的,因此我将同时解析许多这些大文件. 在这种规模下,我必须以流式方式处理文件.在此过程中的任何步骤都不能将整个文件保存在主内存中. 我见过许多通 ..
发布时间:2021-11-12 04:59:48 其他开发

如何修复 PDFBox 设置的 PDF/A 元数据(使用 Docx4j 和 XDocReport)

为了达到 PDF/A-1A 的辅助功能级别,我使用 PDFBox v2.0.13 在 PDF 上设置 XMP 元数据.在设置元数据之前,我将文件从 .docx 转换为 pdf.我尝试了两种方法来进行转换:一种使用 XDocReport v.2.0.1,另一种使用 Docx4j v.6.1.0. 在 Java 类中,我有以下代码: PDDocumentInformation info = p ..
发布时间:2021-11-12 01:23:39 其他开发

PDFBox - 可访问的 PDF - 如何根据可访问性指南检查 PDF 标签是否具有属性

需要根据辅助功能指南检查 PDF 标签是否具有属性.示例: H1 - 验证 PDF 中是否存在 H1 Image(Figure Tag) - 验证 image\figure 是否有 Alt 文本 语言 - 验证是否设置了语言属性,以便屏幕阅读器可以正确读取.对于西班牙语和英语文档,应更新各自的语言代码 表格 - 访问表格对象并验证表格结构是否正确(标题列与行列匹配等) 到目前为止 ..
发布时间:2021-10-26 16:21:29 其他开发

PDF2SVG:Apache Batik textAsShape 选项导致字体转换

下面的代码完美地将PDF文件转换为SVG格式,但无论我做什么,它都会将字体转换成形状……而且文件越来越大…… 有: SVGGraphics2D g2d = new CustomSVGGraphics2D(ctx, false); 哪个触发 super(generatorCtx, textAsShapes); 但更近的“假"工作,也不是“真"...... 如何做到这一点? ..
发布时间:2021-09-01 19:25:36 其他开发

PDFBox COSStream 使用前关闭

我们的 pdf 生成器出现间歇性异常,该生成器在云中的 docker 容器中运行.生成器的一部分处理获取 SVG 文档并将其加载到 pdf 中.每 100 次调用它都会抛出以下异常importPageAsForm(tmpSVGPdf, 0). java.io.IOException: COSStream 已关闭且无法读取.也许它的封闭 PDDocument 已关闭? 我们无法在本地重现此问题. ..
发布时间:2021-09-01 19:22:33 其他开发

通过PDFBox绘制曲线

我使用 PDFBox 创建了一个折线图来绘制一些数据,它看起来很像您通过谷歌搜索看到的任何一般折线图.它看起来也与我附加到这个问题的折线图相同.折线图绘制算法的工作方式是先查看当前点,然后再查看下一个点,如果在那里找到有效点,则绘制一条线. 我的问题是客户不喜欢线路之间的连接有多清晰.相反,他们希望线条之间的连接以更弯曲的方式发生.附件是客户想要什么的粗略概念的图像.请注意,虽然线条看起来很 ..
发布时间:2021-06-15 18:37:27 其他开发