有没有可用的工具来获取PDF文件的内部结构(基于XML)? [英] Is there any tool available for getting internal structure(XML based) of the PDF file?

查看:189
本文介绍了有没有可用的工具来获取PDF文件的内部结构(基于XML)?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

大家好,

通过使用MS-WORD 2007的开放XML表示形式进行拆分,聚合Word文档,我们已经在使用C#4.0(WIN FORM应用程序)的MS-WORD 2007中进行工作.现在,我们将工作扩展到支持PDF文件.我想知道是否有任何工具可以用来获取PDF文件的内部结构(基于XML),例如为MS-OFFICE 2007打开XML表示形式吗?

请给我启发......

Hi All,

We are already working in MS-WORD 2007 with C#4.0(WIN FORM Application) by using open XML representation of the MS-WORD 2007 for splitting,Aggregate the word document.Now, We extending our work to supporting PDF Files.So, i would like to know if there is any tool available for getting internal structure(XML BASED) of the PDF file likewise Open XML representation for MS-OFFICE 2007?

Please enlighten me on this...?

推荐答案

不是真的基于XML. PDF结构非常不同,如果您需要将其映射到XML,则需要1)自己完成,2)应用您选择的一些映射规则以及定义此类规则的方式—没有预定义的一对一PDF和XML之间的一种对应关系.

对于使用PDF,我建议您使用开放源iText,更确切地说,使用其名为iTextSharp的.NET端口:
http://en.wikipedia.org/wiki/IText [ http://itextpdf.com/ [ ^ ],
http://sourceforge.net/projects/itextsharp/ [
Not really XML based. PDF structure is very different, if you need to map it onto XML, you would need to 1) do it yourself, 2) apply some mapping rules of your choice and your way of defining such rules — there is no predefined one-to-one correspondence between PDF and XML.

For working with PDF, I would advise to use Open Source iText, more exactly, its .NET port called iTextSharp:
http://en.wikipedia.org/wiki/IText[^],
http://itextpdf.com/[^],
http://sourceforge.net/projects/itextsharp/[^].

—SA


这篇关于有没有可用的工具来获取PDF文件的内部结构(基于XML)?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆