按原样获取PDF的文本层并将其传递给另一个PDF [英] Get text layer of a PDF as is and pass it to another PDF

查看:0
本文介绍了按原样获取PDF的文本层并将其传递给另一个PDF的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

下午好,我的项目有一个问题,这是PDF压缩,过程如下: 从PDF中提取图像 挂起OCR 压缩库存 每页OCR+合并图像和转换PDF 将所有生成的pdf与OCR、OCR PDFcon One组合成最终产品。 我的原始文件大小为11 MB,压缩后为4.2 MB。 整个过程运行得很完美,但我遇到的问题是OCR过程的速度。我在网上查看,我看到了一种方法来规避这个过程,那就是获得原始PDF的文本层,并将其传递到最终的PDF是压缩的,尝试一些代码,如删除PDF的所有图像和单独与文本层,并插入我的压缩图像,但问题是相比于上面提供的正常过程,文件的重量增加了4.2MB以上,这对我不方便。 当寻找另一个解决方案时,我发现处理PDF操作符的PDFBox是通过PDFStreamParser、PDStream、COSDictionary来处理的。 运营商有TJ、TW、TZ、TC...等等。 我的问题是,如果有人知道通过TJ操作,这是一个包含PDF的文本到另一个,看看是否可以将原始PDF的文本层传递给最终的PDF,而没有我4.2MB高的压缩来提高权重,这个想法是不花其他操作员,因为这些可以增加最终的PDF的权重,还是我错了? 如果您有其他可以帮助我的解决方案,我将不胜感激。

如果我的英语不好,对不起,如果有懂西班牙语的人告诉我要更好地表达自己。

谢谢

推荐答案

您可以使用我们的开源工具pdf2json从您的pdf中获取文本层。如果您想从OCR扫描的文档中获取文本,请确保在使用该工具时将"-den"作为参数传递给该工具。它支持将数据导出为JSON和XML。点击此处查看:

http://code.google.com/p/pdf2json/

这篇关于按原样获取PDF的文本层并将其传递给另一个PDF的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
相关文章
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆