按原样获取PDF的文本层并将其传递给另一个PDF [英] Get text layer of a PDF as is and pass it to another PDF

查看：0 发布时间：2022/7/18 15:52:28 pdfbox

本文介绍了按原样获取PDF的文本层并将其传递给另一个PDF的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

下午好，我的项目有一个问题，这是PDF压缩，过程如下：从PDF中提取图像挂起OCR 压缩库存每页OCR+合并图像和转换PDF 将所有生成的pdf与OCR、OCR PDFcon One组合成最终产品。我的原始文件大小为11 MB，压缩后为4.2 MB。整个过程运行得很完美，但我遇到的问题是OCR过程的速度。我在网上查看，我看到了一种方法来规避这个过程，那就是获得原始PDF的文本层，并将其传递到最终的PDF是压缩的，尝试一些代码，如删除PDF的所有图像和单独与文本层，并插入我的压缩图像，但问题是相比于上面提供的正常过程，文件的重量增加了4.2MB以上，这对我不方便。当寻找另一个解决方案时，我发现处理PDF操作符的PDFBox是通过PDFStreamParser、PDStream、COSDictionary来处理的。运营商有TJ、TW、TZ、TC...等等。我的问题是，如果有人知道通过TJ操作，这是一个包含PDF的文本到另一个，看看是否可以将原始PDF的文本层传递给最终的PDF，而没有我4.2MB高的压缩来提高权重，这个想法是不花其他操作员，因为这些可以增加最终的PDF的权重，还是我错了？如果您有其他可以帮助我的解决方案，我将不胜感激。

如果我的英语不好，对不起，如果有懂西班牙语的人告诉我要更好地表达自己。

谢谢

按原样获取PDF的文本层并将其传递给另一个PDF [英] Get text layer of a PDF as is and pass it to another PDF

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

按原样获取PDF的文本层并将其传递给另一个PDF [英] Get text layer of a PDF as is and pass it to another PDF

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭