从PDF中提取文本(谷歌应用程序引擎) [英] Extract text from PDF (google app engine)

查看:338
本文介绍了从PDF中提取文本(谷歌应用程序引擎)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

是否有任何免费的Java库用于从PDF中提取文本,这与Google Application Engine兼容?

Is there any free Java library for extracting text from PDF, that is compatible with Google Application Engine?

我已阅读过PDFJet,但它不能阅读PDF,可以吗?

I've read about PDFJet, but it can't read PDF, can it?

有没有其他方法可以从PDF中提取文本?我试过 http://www.pdfdownload.org/ ,不幸的是,他们不处理非英文字符正确。

Is there perhaps other way how to extract text from PDF? I tried http://www.pdfdownload.org/, unfortunately they don't handle non-English characters correctly.

推荐答案

iText 现在有一个文本解析模块(我是解析器作者之一)。有关如何使用它的示例,请参阅com.itextpdf.text.pdf.parser.PdfContentReaderTool类。

iText now has a text parsing module (I'm one of the parser authors). See the com.itextpdf.text.pdf.parser.PdfContentReaderTool class for an example of how to use it.

这篇关于从PDF中提取文本(谷歌应用程序引擎)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆