从PDF文件中提取文本 [英] Extracting text from a PDF file

查看:151
本文介绍了从PDF文件中提取文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我需要提取从PDF文件中的文本。该文本将可能在一个表格式,它是将要使用外部党和系统之间的数据自动传输。

I need to extract the text from a PDF file. This text will likely be in a table format, and it is going to be used for automatic transfer of data between an external party and our systems.

任何人都可以提出一个命令行工具(如PDF格式为TXT),或将是很好的这样的图书馆吗?

Can anyone suggest a command line tool (eg pdf to txt) or a library that would be good for this?

语言选择:


  • C#(首选)

  • 的Java(如果我必须)

我发现了一些想法在这里,但我认为这个家伙谈论更多有关一次性的情况下,我说的更像是一个每天导入:

I found some ideas here, but i think the guy was talking more about a one-off situation, i'm talking more like a daily import:

http://stackoverflow.com/questions/488089/extracting-tables-from-pdf-files

推荐答案

试试这个

http://www.codeproject.com/KB/cs/PDFToText.aspx

细则

这篇关于从PDF文件中提取文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆