从PDF文件中提取文本 [英] Extracting text from a PDF file
本文介绍了从PDF文件中提取文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我需要提取从PDF文件中的文本。该文本将可能在一个表格式,它是将要使用外部党和系统之间的数据自动传输。
I need to extract the text from a PDF file. This text will likely be in a table format, and it is going to be used for automatic transfer of data between an external party and our systems.
任何人都可以提出一个命令行工具(如PDF格式为TXT),或将是很好的这样的图书馆吗?
Can anyone suggest a command line tool (eg pdf to txt) or a library that would be good for this?
语言选择:
- C#(首选)
- 的Java(如果我必须)
我发现了一些想法在这里,但我认为这个家伙谈论更多有关一次性的情况下,我说的更像是一个每天导入:
I found some ideas here, but i think the guy was talking more about a one-off situation, i'm talking more like a daily import:
的 http://stackoverflow.com/questions/488089/extracting-tables-from-pdf-files
推荐答案
试试这个
的 http://www.codeproject.com/KB/cs/PDFToText.aspx
细则
这篇关于从PDF文件中提取文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文