使用C#或经典ASP(VBScript)从PDF提取文本的好方法是什么? [英] What's a good method for extracting text from a PDF using C# or classic ASP (VBScript)?

查看:122
本文介绍了使用C#或经典ASP(VBScript)从PDF提取文本的好方法是什么?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

是否有一个很好的库可用于从PDF中提取文本?如果需要的话,我愿意为此付费.

Is there a good library for extracting text from a PDF? I'm willing to pay for it if I have to.

适用于C#或经典ASP(VBScript)的东西是理想的,而且我还需要能够将页面与PDF分开.

Something that works with C# or classic ASP (VBScript) would be ideal and I also need to be able to separate the pages from the PDF.

这个问题有一些有趣的东西,尤其是 pdftotext ,但我想避免调用外部命令行应用程序.

This question had some interesting stuff, especially pdftotext but I'd like to avoid calling to an external command-line app if I can.

推荐答案

您可以使用Windows内置的IFilter接口从任何受支持的文件类型提取文本和属性(作者,标题等).这是一个COM接口,因此您将使用.NET互操作工具.

You can use the IFilter interface built into Windows to extract text and properties (author, title, etc.) from any supported file type. It's a COM interface so you would have use the .NET interop facilities.

您还必须从Adobe下载免费的PDF IFilter驱动程序.

You'd also have to download the free PDF IFilter driver from Adobe.

这篇关于使用C#或经典ASP(VBScript)从PDF提取文本的好方法是什么?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆