从pdf中提取文本 [英] To Extract Text from pdf

查看:94
本文介绍了从pdf中提取文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在做一个大学项目来为pdf文件生成索引。我发现你的代码从文本文件中提取完整的文本,但问题是它无法分隔不同的页码。如果你能帮助我,我将非常感激。

解决方案

< blockquote>考虑以下开源C ++库之一:PoDoFo或QPDF:

http:// en .wikipedia.org / wiki / Podofo [ ^ ] ,

http://sourceforge.net/projects/podofo/ [ ^ ],

http://qpdf.sourceforge.net/ [ ^ ],

http://sourceforge.net/projects/qpdf [< a href =http://sourceforge.net/projects/qpdf目标=_ blanktitle =新窗口> ^ ]。



-SA

I am doing a college project to generate indexes for a pdf file. I found your code which extracted complete text from a text file, but the problem is it cannot separate different page numbers.If you can help me it will be much appreciated.

解决方案

Consider one of the following open-source C++ libraries: PoDoFo or QPDF:
http://en.wikipedia.org/wiki/Podofo[^],
http://sourceforge.net/projects/podofo/[^],
http://qpdf.sourceforge.net/[^],
http://sourceforge.net/projects/qpdf[^].

—SA


这篇关于从pdf中提取文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆