从 .PDF 文件中提取数据 [英] Extract Data from .PDF files

查看：44 发布时间：2021/12/30 9:07:47 c# ssis

本文介绍了从 .PDF 文件中提取数据的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我需要从 .PDF 文件中提取数据并将其加载到 SQL 2008 中.谁能告诉我如何进行?

I need to extract data from .PDF files and load it in to SQL 2008. Can any one tell me how to proceed??

推荐答案

以下是如何使用 iTextSharp 从 PDF 中提取文本数据的示例.您将不得不摆弄它以使其完全按照您的意愿行事，我认为这是一个很好的大纲.您可以看到如何使用 StringBuilder 来存储文本，但您可以轻松地将其更改为使用 SQL.

Here is an example of how to use iTextSharp to extract text data from a PDF. You'll have to fiddle with it some to make it do exactly what you want, I think it's a good outline. You can see how the StringBuilder is being used to store the text, but you could easily change that to use SQL.

    static void Main(string[] args)
    {
        PdfReader reader = new PdfReader(@"c:	est.pdf");

        StringBuilder builder = new StringBuilder();

        for (int x = 1; x <= reader.NumberOfPages; x++)
        {
            PdfDictionary page = reader.GetPageN(x);
            IRenderListener listener = new SBTextRenderer(builder);
            PdfContentStreamProcessor processor = new PdfContentStreamProcessor(listener);
            PdfDictionary pageDic = reader.GetPageN(x);
            PdfDictionary resourcesDic = pageDic.GetAsDict(PdfName.RESOURCES);
            processor.ProcessContent(ContentByteUtils.GetContentBytesForPage(reader, x), resourcesDic);
        }
    }

public class SBTextRenderer : IRenderListener
{

    private StringBuilder _builder;
    public SBTextRenderer(StringBuilder builder)
    {
        _builder = builder;
    }
    #region IRenderListener Members

    public void BeginTextBlock()
    {
    }

    public void EndTextBlock()
    {
    }

    public void RenderImage(ImageRenderInfo renderInfo)
    {
    }

    public void RenderText(TextRenderInfo renderInfo)
    {
        _builder.Append(renderInfo.GetText());
    }

    #endregion
}

这篇关于从 .PDF 文件中提取数据的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

从 .PDF 文件中提取数据 [英] Extract Data from .PDF files

问题描述

推荐答案

相关文章

C#/.NET最新文章

热门教程

热门工具

登录关闭

从 .PDF 文件中提取数据 [英] Extract Data from .PDF files

问题描述

推荐答案

相关文章

C#/.NET最新文章

热门教程

热门工具

登录 关闭

登录关闭