pdfbox相关内容

使用 Apache tika 删除 PDFont 缓存

我试图仅从许多不同的代码(rtf doc pdf)中提取文本.我很自然地求助于 Apache Tika,因为它可以自动检测文档并相应地提取文本.我只对文本感兴趣,对格式等不感兴趣. 我的应用程序最终出现了大内存泄漏,经过调查,这是来自 PDFBox 依赖项中 PDFFont 类的缓存.我对从 pdf 缓存 Fontmetrics 和其他字体格式问题不感兴趣,因为我只想提取文本. 我使用 ..
发布时间:2021-11-14 23:45:05 其他开发

PDFBox 的内存泄漏问题

我在我的应用程序中使用 PDF Box version 2.0.9.我必须从网络解析大型 pdf 文件.以下是我正在使用的代码 MimeDetector 类 @Getter@Setter类 MimeTypeDetector {私有 ByteArrayInputStream byteArrayInputStream;私有 BodyContentHandler bodyContentHand ..
发布时间:2021-11-14 23:44:47 其他开发

PDFBox 在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件,但在几个页面上似乎都在做同样的 ..
发布时间:2021-11-14 23:44:14 其他开发

使用 POI 或 Tika 提取文本,流到流,无需在内存中加载整个文件

我正在尝试单独使用 Apache POI 和 PDFBox,或者在 Apache Tika 的上下文中,从 MASSIVE Microsoft Office 和 PDF 文件(即在某些情况下数百兆)中提取和处理纯文本.此外,我的应用程序是多线程的,因此我将同时解析许多这些大文件. 在这种规模下,我必须以流式方式处理文件.在此过程中的任何步骤都不能将整个文件保存在主内存中. 我见过许多通 ..
发布时间:2021-11-12 04:59:48 Java开发

如何修复 PDFBox 设置的 PDF/A 元数据(使用 Docx4j 和 XDocReport)

为了达到 PDF/A-1A 的辅助功能级别,我使用 PDFBox v2.0.13 在 PDF 上设置 XMP 元数据.在设置元数据之前,我将文件从 .docx 转换为 pdf.我尝试了两种方法来进行转换:一种使用 XDocReport v.2.0.1,另一种使用 Docx4j v.6.1.0. 在 Java 类中,我有以下代码: PDDocumentInformation info = p ..
发布时间:2021-11-12 01:23:39 其他开发

PDFBox - 可访问的 PDF - 如何根据可访问性指南检查 PDF 标签是否具有属性

需要根据辅助功能指南检查 PDF 标签是否具有属性.示例: H1 - 验证 PDF 中是否存在 H1 Image(Figure Tag) - 验证 image\figure 是否有 Alt 文本 语言 - 验证是否设置了语言属性,以便屏幕阅读器可以正确读取.对于西班牙语和英语文档,应更新各自的语言代码 表格 - 访问表格对象并验证表格结构是否正确(标题列与行列匹配等) 到目前为止 ..
发布时间:2021-10-26 16:21:29 Java开发

PDF2SVG:Apache Batik textAsShape 选项导致字体转换

下面的代码完美地将PDF文件转换为SVG格式,但无论我做什么,它都会将字体转换成形状……而且文件越来越大…… 有: SVGGraphics2D g2d = new CustomSVGGraphics2D(ctx, false); 哪个触发 super(generatorCtx, textAsShapes); 但更近的“假"工作,也不是“真"...... 如何做到这一点? ..
发布时间:2021-09-01 19:25:36 Java开发

PDFBox COSStream 使用前关闭

我们的 pdf 生成器出现间歇性异常,该生成器在云中的 docker 容器中运行.生成器的一部分处理获取 SVG 文档并将其加载到 pdf 中.每 100 次调用它都会抛出以下异常importPageAsForm(tmpSVGPdf, 0). java.io.IOException: COSStream 已关闭且无法读取.也许它的封闭 PDDocument 已关闭? 我们无法在本地重现此问题. ..
发布时间:2021-09-01 19:22:33 Java开发

通过PDFBox绘制曲线

我使用 PDFBox 创建了一个折线图来绘制一些数据,它看起来很像您通过谷歌搜索看到的任何一般折线图.它看起来也与我附加到这个问题的折线图相同.折线图绘制算法的工作方式是先查看当前点,然后再查看下一个点,如果在那里找到有效点,则绘制一条线. 我的问题是客户不喜欢线路之间的连接有多清晰.相反,他们希望线条之间的连接以更弯曲的方式发生.附件是客户想要什么的粗略概念的图像.请注意,虽然线条看起来很 ..
发布时间:2021-06-15 18:37:27 Java开发

GetBaseFont() 在 pdfbox 中等于 null

我使用 pdfbox 从 pdf 文件中提取文本,当我为 pdf 中的某些文本获取字体时,它会为空,我不知道为什么!虽然同一个文件中的一些其他文本我得到了它的字体. 使用此代码: protected void processTextPosition(TextPosition text) {String font=text.getFont().getBaseFont();//等于空} 解 ..
发布时间:2021-06-15 18:37:24 Java开发

无法使用 PDPageContentStream 绘制多个半圆

我想实现使用 pdfbox 1.8.2 c# wrapper 在矩形边界上绘制云的功能.我能够使用此 链接.但问题是,我只能画一个半圆.当我尝试绘制多个相邻的半圆时,它不起作用.以下是我正在使用的代码. (createSmallArc() 来自 汉斯Muller, 许可:知识共享署名 3.0.所做的更改:实施原始 AS代码转换成 java.算法是由 Aleksas Riškus) publ ..
发布时间:2021-06-15 18:37:21 Java开发

PDFBox 2 异常内存消耗

我们正在尝试使用 PDFRenderer 的 renderImageWithDPI 方法渲染来自不同 PDF 文件的图像.在特定 PDF 上,对于某些页面,库渲染器具有不同的行为. 渲染本身比其他类似页面花费的时间更长,并且内存消耗达到异常大的值:进程消耗的内存每 1-2 秒增加约 50MB,直到达到消耗的 RAM 等值 5GB在 renderImageWithDPI 中由应用程序进程执行. ..
发布时间:2021-06-15 18:37:18 Java开发

pdfBox - contentStream.concatenate2CTM 完整文档参数

jsf 2.1/pdfbox 我想生成横向 pdfbox pdf 并为其内容绘制一些字符串,但我没有找到任何关于 concatenate2CTM 方法的完整规范. 有没有人有一些关于 concatenate 2CTM 参数的完整信息 我只有这个但对我没有帮助,因为我不知道我必须输入什么值. a...f 运算符是什么意思??? 解决方案 这会直接向相关内容流添加 cm ..
发布时间:2021-06-15 18:37:15 Java开发

获取包含数字签名的pdf页面的页面索引

我需要获取 PDF 文档中包含数字签名的页面的页面索引.如何使用 Apache PDFBox 获取它? 解决方案 try (PDDocument doc = PDDocument.load(new File("...."))){PDPageTree pageTree = doc.getPages();PDAcroForm acroForm = doc.getDocumentCatalog( ..
发布时间:2021-06-15 18:37:12 Java开发

PDFBox:在一张 A3 纸上放两张 A4 纸

我有一份包含一页或多页 A4 纸的 pdf 文档.生成的 pdf 文档应该是 A3 纸,其中每页包含第一页中的两页(左侧奇数,甚至右侧).我已经把 A4 页面渲染成图像,奇数页面成功放置在新 A3 页面的第一部分,但我无法放置偶数页面. 公共类 CreateLandscapePDF { public void renderPDF(File inputFile, String output) ..
发布时间:2021-06-15 18:37:09 Java开发

即使我可以打开文件,PDFBox 也返回 isEncrypted true

我正在使用 PDFBox 来确定 pdf 文件是否受密码保护.这是我的代码: boolean isProtected = pdfDocument.isEncrypted(); 我的文件属性在 sceenshot 中.在这里我得到 isProtected= true 即使我可以在没有密码的情况下打开它. 注意:此文件有文档打开密码:否和权限密码:是. 解决方案 您的 PDF 有一个 ..
发布时间:2021-06-15 18:37:06 Java开发

尝试从 pdf 中提取字形 ID 时缺少某些字形 ID

由于天城字形映射到 unicode 字符不正确,我使用以下代码提取字形 ID 并形成我自己的映射以将 ID 映射到正确的 unicode 字符. 公共类 ExtractCharacterCodes {公共静态无效 testExtractFromSingNepChar() 抛出 IOException {PDDocument 文档 = PDDocument.load(new File("C:/Pa ..
发布时间:2021-06-15 18:37:03 Java开发

如何使用 PDFBOX java 提取字体颜色?

实际上我需要提取每个字符的字体颜色,在论坛的下面一段代码中找到了这个,但是在执行它时会抛出错误 2013 年 4 月 19 日下午 6:23:45 org.apache.pdfbox.util.operator.pagedrawer.FillNonZeroRule 过程警告:java.lang.ClassCastException:org.apache.pdfbox.util.PDFStream ..
发布时间:2021-06-15 18:36:57 Java开发

Java PDFBox,从表的一列中提取数据

我想了解如何从这个 pdf(例如图像)中提取 http://postimg.org/image/ypebht5dx/ 例如,我只想提取列“TENSIONE[V]"中的值,如果遇到空白单元格,我会在输出中输入字母“X".我该怎么办? 我使用的代码是这样的: PDDocument p=PDDocument.load(new File("a.pdf"));PDFTextStripper ..
发布时间:2021-06-15 18:36:54 Java开发