从乱码的PDF中提取文本 [英] Extracting text from garbled PDF

查看:142
本文介绍了从乱码的PDF中提取文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个包含重要文本信息的PDF文件.

I have a PDF file with valuable textual information.

问题是我无法提取文本,我得到的只是一堆乱码.如果我将文本从PDF阅读器复制并粘贴到文本文件中,也会发生同样的情况.即使在Acrobat Reader中,文件->另存为文本也会失败.

The problem is that I cannot extract the text, all I get is a bunch of garbled symbols. The same happens if I copy and paste the text from the PDF reader to a text file. Even File -> Save as text in Acrobat Reader fails.

我已经使用了所有可以使用的工具,结果是相同的.我相信这与字体嵌入有关,但是我不知道到底是什么?

I have used all tools I could get my hands on and the result is the same. I believe that this has something to do with fonts embedding, but I don't know what exactly?

我的问题:

  • 这种奇怪的文本盗版的罪魁祸首是什么?
  • 如何从PDF中提取文本内容(通过编程,使用工具,直接操作位等)?
  • 如何修复PDF在复制时不显示乱码?
  • What is the culprit of this weird text garbling?
  • How to extract the text content from the PDF (programmatically, with a tool, manipulating the bits directly, etc.)?
  • How to fix the PDF to not garble on copy?

推荐答案

我去过很多人寻求帮助,OCR是解决此问题的唯一方法

I went to a lot of people for help and OCR is the only solution to this problem

这篇关于从乱码的PDF中提取文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆