使用PDFBox从PDF提取数据时如何用单词替换空格 [英] How to replace a space with a word while extract the data from PDF using PDFBox

查看:268
本文介绍了使用PDFBox从PDF提取数据时如何用单词替换空格的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想用一个单词替换任何空列;例如,提取Pdf数据时,单词 BLK .

下表是预期表和实际结果的示例.

原始表

+--------------------------------------+
|# |NAME        |TEL        |GENDER    |
|---------------------------|----------|
|1 |JOHN        |096587498  |M         |
|2 |VILLA       |           |F         |
+--------------------------------------+

预期结果

# NAME TEL GENDER
1 JOHN 096587498 M
2 VILLA BLK F

实际结果

# NAME TEL GENDER
1 JOHN 096587498 M
2 VILLA F

实际结果来自类 PDFTextStripper .

pdf的捕获

解决方案

PDFTextStripper看不到PDF中的图形线,只看到文本字符.因此,在您的#2行中,看到"2","Villa"和"F"之间有间隙.因此,仅凭本课程,您将无法获得想要的东西.

通常,使用PDFBox可以使用以下选项:

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆