pdfbox相关内容
我使用Apache PDFBox库创建了一个PDF文档。我的问题是在页面上绘制字符串时编码欧元货币符号,因为基本字体Helvetica不提供此字符。如何将输出“þÿ¬”转换为符号“€”? 解决方案 不幸的是,PDFBox的字符串编码远非完美(版本1.8.x)。不幸的是,它在编码通用PDF对象中的字符串时使用相同的例程,就像在内容流中编码字符串时一样,这是根本错误的。因此,不必使用 PDPa
..
我使用不同的工具,如处理来创建矢量图。这些图表是单页或多页pdf。我想使用pdfbox将这些图表包含在一个类似报告的pdf中。 我当前的工作流程包括这些pdf作为具有以下伪代码的图像 PDDocument inFile = PDDocument.load(file); PDPage firstPage =(PDPage)inFile.getDocumentCatalog()。ge
..
我正在使用Pdfbox使用Java生成PDF文件。问题是当我在文档中添加长文本内容时,它无法正确显示。仅显示其中的一部分。这也是一行。 我希望文本有多行。 我的代码是给出的下面: PDPageContentStream pdfContent = new PDPageContentStream(pdfDocument,pdfPage,true,true); pdfCont
..
我想将pdf文件转换为文本文件,但某些pdf文件不适用于pdfbox dll,因为Acrobat的版本比Acrobat 5.x更新 请告诉我我的工作? output.WriteLine(“Begin Parsing .....”); output.WriteLine(DateTime.Now.ToString()); PDDocument doc = PDDocument
..
我已经通过Java和PDF论坛从pdf文件中的表中提取文本值,但除了 JPedal (它不是开源和许可的)。 所以,我想知道任何开源API,如pdfbox,itext,以达到与JPedal相同的结果。 参考。示例: 解决方案 在评论中,OP澄清说他从pdf文件中的表中找到文本值他要提取 通过提供X和Y坐标 这可以使用您提到的任何一个库(当然也包括其他库)。 i
..
我正在尝试从pdf中提取图像。 pdfbox能够从大多数pdf中提取图像,但它们是一些pdf,其图像不会被pdfbox提取。 为了提取图像我使用下面的代码: 无法从PDFA1中提取图像 - 格式文档 你可以下载此链接中有此问题的示例pdf: http://myslams.com/test/ 2.pdf 他们的错误代码可能是我忘了处理的东西,或者他们的pdf一起出错了吗?
..
我必须在> 之间替换字符串。但是我无法这样做。 public void doIt(String inputFile,String outputFile)抛出IOException,COSVisitorException { PDDocument doc = null; try { doc = PDDocument.load(inputFile); List
..
我使用下面的代码将tiff转换为pdf 它适用于尺寸为850 * 1100的tiff图像。但是当我试图给出尺寸的输入tiff图像时(例如: - 1574 * 732 ,684 * 353或其他850 * 1100),我收到以下错误。请帮助我如何将不同尺寸的tiff图像转换为pdf。 错误发现以下代码。压缩JPEG仅支持单个条带。此图片有45个条。 RandomAccessFileO
..
我有不同类型的pdf,其中包含多个内容,如文本,表格等。表格可能存在于pdf(顶部,中间,底部)的任何位置。 我想使用java从pdf中仅提取表数据(列的编号,行的编号和表中的数据)而不传递位置。 到目前为止我做了什么: - 1.我使用了iText java API来读取和提取。以下代码使用: - PdfTextExtractor.getTextFromPage 但它只返
..
PDF中的页码有不同的变体,有些PDF的初始页面为罗马数字,如I,ii,后来页码为1,2,....我在 pdfbox 中找到了一个函数来获取所需的页面 page.get(pagenumber)。但是这个函数的问题是,当我写 get(1)时,它返回文档的第一页(可能编号为ii而不是带页面的页面) 2号)。有没有办法获得PDF中的页码是2而不是第二页的页面? 解决方案 虽然标题提到了PDFBo
..
我们探索了许多API,如tika,Pdfbox和itextpdf,以从pdf文件中提取页码,但我们无法做到这一点。在itextpdf中我们得到了PdfPageLabels.getPageLabels(reader),但是这个方法的行为并不统一。 解决方案 你不喜欢的原因找不到任何能够从PDF中提取页码的软件很简单:PDF中不存在页码的概念。 允许我预测你的回复。 *“等一下!”
..
我正在阅读PDF并输出包含原始PDF的多个副本的PDF。我通过对 PDFBox 和 iText 。如果我单独复制每个页面,iText会创建一个小得多的输出。 问题:还有另一种方法可以在PDFBox中执行此操作,从而产生较小的输出PDF。 对于一个示例输入文件,使用这两个工具为输出生成两个副本: 原始PDF大小:30K PDFBox(v 1.7.1)生成PDF:84K iTex
..
可能重复: 将PDF页面导出为Java中的一系列图像 请建议一些好的java库,它们可以用于PDF文件到图像的转换。 我尝试使用PDFBox: http://pdfbox.apache.org/ 但转换为我的pdf文件中的大部分文字在图像中都是乱码。它将'T'读作'Y','C'作为'#'等等。 以下是我用于相同的代码片段: PDDocument document = n
..
当我使用pdfbox提取图像时,对于某些PDF,我得到的图像dpi不正确。当我使用Photoshop或Acrobat Reader Pro提取图像时,我可以看到使用Windows照片查看器的图像的dpi是200,但是当我使用pdfbox提取图像时,dpi是72。 为了提取图像我使用下面的代码: 无法从PDFA1中提取图像 - 格式文档 当我查看日志时,我看到一个不寻常的条目: 20
..
0 1 2 3 *(x1,y1)***************(x2,y2) * * * * * * * 4 5 * * 6 7 *(x3,y3)***************(x4,y4) ) 这是PdfAnnotation或PDFAnnotation的float数组的正确顺序吗?我尝试创建一个pdf注释,但注释是凹的而不是像通常使用adobe reader或
..
如何使用Java确定PDF页面是否包含文本或纯图片? 我搜索了很多论坛和网站,但我找不到答案然而。 是否可以从PDF中提取文本,以了解页面是否采用格式图片或文本? PdfReader reader = new PdfReader(INPUTFILE); PrintWriter out = new PrintWriter(new FileOutputStream(OUTPUT
..
我正在尝试将pdf(我最喜欢的书籍Effective Java,如果它的问题)转换为文本,我检查了iText和Apache PdfBox。我发现性能有很大差异:使用iText需要2:521,使用PdfBox:6:117。 如果我的代码为PdfBOx PDFTextStripper stripper = new PDFTextStripper(); BUFFER.append(stri
..
是否有工具来确定PDF是横向还是纵向? 我目前正在查看 pdfbox 和 Itext 为此,但似乎我找不到它。请告诉他们是否支持此功能。 使用 Origami 提取PDF页面信息,提供pdf页面在某种程度上具有轮换效果的信息。这是Origami报道的内容: {:Parent =>#
..
我使用iText / Pdfbox创建PDF文档。当我使用像这样的独立Java类创建PDF时,一切正常: public static void main(String [] args){ ... ... ... } 文档已正确创建。 但我需要从Servlet创建PDF文档。我将代码粘贴到get或post方法中,在服务器上运行该servlet,但未创
..
我有一个pdf,我需要缩小规模。 pdf处于A4纵向模式,我需要的是将pdf的内容缩小到5%,并将其放入A4 A4和纵向模式的新PDF中。它不是将pdf转换为图像,缩放它们并将其放回pdf的选项。我正在寻找一种方法来解决这个问题。有没有办法用pdfbox或itext解决这个问题? 解决方案 如果您使用 iText 7 ,这是一个选项: public void manipulateP
..