pdfbox 第4页 - IT屋-程序员软件开发技术分享社区

如何配置 Tika 的 pom.xml 以停止获取所有许可证依赖警告?

当我尝试使用 Tika 时，我收到了所有这些警告: 2018 年 2 月 24 日晚上 9:24:35org.apache.tika.config.InitializableProblemHandler$3handleInitializableProblem 警告:未加载 JBIG2ImageReader.jbig2文件将被忽略参见https://pdfbox.apache.org/2.0 ..

发布时间：2021-11-14 23:45:50 java maven pdfbox apache-tika Java开发

使用 Apache tika 删除 PDFont 缓存

我试图仅从许多不同的代码(rtf doc pdf)中提取文本.我很自然地求助于 Apache Tika，因为它可以自动检测文档并相应地提取文本.我只对文本感兴趣，对格式等不感兴趣. 我的应用程序最终出现了大内存泄漏，经过调查，这是来自 PDFBox 依赖项中 PDFFont 类的缓存.我对从 pdf 缓存 Fontmetrics 和其他字体格式问题不感兴趣，因为我只想提取文本. 我使用 ..

发布时间：2021-11-14 23:45:05 pdfbox apache-tika 其他开发

PDFBox 的内存泄漏问题

我在我的应用程序中使用 PDF Box version 2.0.9.我必须从网络解析大型 pdf 文件.以下是我正在使用的代码 MimeDetector 类 @Getter@Setter类 MimeTypeDetector {私有 ByteArrayInputStream byteArrayInputStream;私有 BodyContentHandler bodyContentHand ..

发布时间：2021-11-14 23:44:47 pdfbox apache-tika 其他开发

PDFBox 在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时，它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件，但在几个页面上似乎都在做同样的 ..

发布时间：2021-11-14 23:44:14 solr lucene pdfbox apache-tika 其他开发

使用 POI 或 Tika 提取文本，流到流，无需在内存中加载整个文件

我正在尝试单独使用 Apache POI 和 PDFBox，或者在 Apache Tika 的上下文中，从 MASSIVE Microsoft Office 和 PDF 文件(即在某些情况下数百兆)中提取和处理纯文本.此外，我的应用程序是多线程的，因此我将同时解析许多这些大文件. 在这种规模下，我必须以流式方式处理文件.在此过程中的任何步骤都不能将整个文件保存在主内存中. 我见过许多通 ..

发布时间：2021-11-12 04:59:48 java ms-office apache-poi pdfbox apache-tika Java开发

如何修复 PDFBox 设置的 PDF/A 元数据(使用 Docx4j 和 XDocReport)

为了达到 PDF/A-1A 的辅助功能级别，我使用 PDFBox v2.0.13 在 PDF 上设置 XMP 元数据.在设置元数据之前，我将文件从 .docx 转换为 pdf.我尝试了两种方法来进行转换:一种使用 XDocReport v.2.0.1，另一种使用 Docx4j v.6.1.0. 在 Java 类中，我有以下代码: PDDocumentInformation info = p ..

发布时间：2021-11-12 01:23:39 pdfbox apache-fop docx4j pdfa xdocreport 其他开发

PDFBox - 可访问的 PDF - 如何根据可访问性指南检查 PDF 标签是否具有属性

需要根据辅助功能指南检查 PDF 标签是否具有属性.示例: H1 - 验证 PDF 中是否存在 H1 Image(Figure Tag) - 验证 image\figure 是否有 Alt 文本语言 - 验证是否设置了语言属性，以便屏幕阅读器可以正确读取.对于西班牙语和英语文档，应更新各自的语言代码表格 - 访问表格对象并验证表格结构是否正确(标题列与行列匹配等) 到目前为止 ..

发布时间：2021-10-26 16:21:29 java pdf accessibility pdfbox Java开发

PDF2SVG:Apache Batik textAsShape 选项导致字体转换

下面的代码完美地将PDF文件转换为SVG格式，但无论我做什么，它都会将字体转换成形状……而且文件越来越大…… 有: SVGGraphics2D g2d = new CustomSVGGraphics2D(ctx, false); 哪个触发 super(generatorCtx, textAsShapes); 但更近的“假"工作，也不是“真"...... 如何做到这一点? ..

发布时间：2021-09-01 19:25:36 java svg pdfbox batik Java开发

我们的 pdf 生成器出现间歇性异常，该生成器在云中的 docker 容器中运行.生成器的一部分处理获取 SVG 文档并将其加载到 pdf 中.每 100 次调用它都会抛出以下异常importPageAsForm(tmpSVGPdf, 0). java.io.IOException: COSStream 已关闭且无法读取.也许它的封闭 PDDocument 已关闭? 我们无法在本地重现此问题. ..

发布时间：2021-09-01 19:22:33 java svg pdfbox Java开发

通过PDFBox绘制曲线

我使用 PDFBox 创建了一个折线图来绘制一些数据，它看起来很像您通过谷歌搜索看到的任何一般折线图.它看起来也与我附加到这个问题的折线图相同.折线图绘制算法的工作方式是先查看当前点，然后再查看下一个点，如果在那里找到有效点，则绘制一条线. 我的问题是客户不喜欢线路之间的连接有多清晰.相反，他们希望线条之间的连接以更弯曲的方式发生.附件是客户想要什么的粗略概念的图像.请注意，虽然线条看起来很 ..

发布时间：2021-06-15 18:37:27 java pdf pdfbox Java开发

GetBaseFont() 在 pdfbox 中等于 null

我使用 pdfbox 从 pdf 文件中提取文本，当我为 pdf 中的某些文本获取字体时，它会为空，我不知道为什么！虽然同一个文件中的一些其他文本我得到了它的字体. 使用此代码: protected void processTextPosition(TextPosition text) {String font=text.getFont().getBaseFont();//等于空} 解 ..

发布时间：2021-06-15 18:37:24 java pdfbox Java开发

无法使用 PDPageContentStream 绘制多个半圆

我想实现使用 pdfbox 1.8.2 c# wrapper 在矩形边界上绘制云的功能.我能够使用此链接.但问题是，我只能画一个半圆.当我尝试绘制多个相邻的半圆时，它不起作用.以下是我正在使用的代码. (createSmallArc() 来自汉斯Muller, 许可:知识共享署名 3.0.所做的更改:实施原始 AS代码转换成 java.算法是由 Aleksas Riškus) publ ..

发布时间：2021-06-15 18:37:21 java c# pdfbox Java开发

PDFBox 2 异常内存消耗

我们正在尝试使用 PDFRenderer 的 renderImageWithDPI 方法渲染来自不同 PDF 文件的图像.在特定 PDF 上，对于某些页面，库渲染器具有不同的行为. 渲染本身比其他类似页面花费的时间更长，并且内存消耗达到异常大的值:进程消耗的内存每 1-2 秒增加约 50MB，直到达到消耗的 RAM 等值 5GB在 renderImageWithDPI 中由应用程序进程执行. ..

发布时间：2021-06-15 18:37:18 java pdfbox pdfrenderer Java开发

pdfBox - contentStream.concatenate2CTM 完整文档参数

jsf 2.1/pdfbox 我想生成横向 pdfbox pdf 并为其内容绘制一些字符串，但我没有找到任何关于 concatenate2CTM 方法的完整规范. 有没有人有一些关于 concatenate 2CTM 参数的完整信息我只有这个但对我没有帮助，因为我不知道我必须输入什么值. a...f 运算符是什么意思??? 解决方案这会直接向相关内容流添加 cm ..

发布时间：2021-06-15 18:37:15 java pdfbox Java开发

获取包含数字签名的pdf页面的页面索引

我需要获取 PDF 文档中包含数字签名的页面的页面索引.如何使用 Apache PDFBox 获取它? 解决方案 try (PDDocument doc = PDDocument.load(new File("...."))){PDPageTree pageTree = doc.getPages();PDAcroForm acroForm = doc.getDocumentCatalog( ..

发布时间：2021-06-15 18:37:12 java pdf pdfbox Java开发

PDFBox:在一张 A3 纸上放两张 A4 纸

我有一份包含一页或多页 A4 纸的 pdf 文档.生成的 pdf 文档应该是 A3 纸，其中每页包含第一页中的两页(左侧奇数，甚至右侧).我已经把 A4 页面渲染成图像，奇数页面成功放置在新 A3 页面的第一部分，但我无法放置偶数页面. 公共类 CreateLandscapePDF { public void renderPDF(File inputFile, String output) ..

发布时间：2021-06-15 18:37:09 java pdfbox drawimage pdfrenderer Java开发

即使我可以打开文件，PDFBox 也返回 isEncrypted true

我正在使用 PDFBox 来确定 pdf 文件是否受密码保护.这是我的代码: boolean isProtected = pdfDocument.isEncrypted(); 我的文件属性在 sceenshot 中.在这里我得到 isProtected= true 即使我可以在没有密码的情况下打开它. 注意:此文件有文档打开密码:否和权限密码:是. 解决方案您的 PDF 有一个 ..

发布时间：2021-06-15 18:37:06 java pdfbox Java开发

尝试从 pdf 中提取字形 ID 时缺少某些字形 ID

由于天城字形映射到 unicode 字符不正确，我使用以下代码提取字形 ID 并形成我自己的映射以将 ID 映射到正确的 unicode 字符. 公共类 ExtractCharacterCodes {公共静态无效 testExtractFromSingNepChar() 抛出 IOException {PDDocument 文档 = PDDocument.load(new File("C:/Pa ..

发布时间：2021-06-15 18:37:03 java pdf pdfbox Java开发

如何使用 PDFBOX java 提取字体颜色?

实际上我需要提取每个字符的字体颜色，在论坛的下面一段代码中找到了这个，但是在执行它时会抛出错误 2013 年 4 月 19 日下午 6:23:45 org.apache.pdfbox.util.operator.pagedrawer.FillNonZeroRule 过程警告:java.lang.ClassCastException:org.apache.pdfbox.util.PDFStream ..

发布时间：2021-06-15 18:36:57 java pdfbox Java开发

Java PDFBox，从表的一列中提取数据

我想了解如何从这个 pdf(例如图像)中提取 http://postimg.org/image/ypebht5dx/ 例如，我只想提取列“TENSIONE[V]"中的值，如果遇到空白单元格，我会在输出中输入字母“X".我该怎么办? 我使用的代码是这样的: PDDocument p=PDDocument.load(new File("a.pdf"));PDFTextStripper ..

发布时间：2021-06-15 18:36:54 java pdfbox Java开发

pdfbox相关内容