如何从 PDF 文件中提取突出显示的部分 [英] How to extract Highlighted Parts from PDF files

查看:33
本文介绍了如何从 PDF 文件中提取突出显示的部分的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

有没有办法以编程方式从 PDF 文件中提取突出显示的文本?欢迎任何语言.我找到了几个包含 Python、Java 和 PHP 的库,但没有一个能胜任.

Is there any way to extract highlighted text from a PDF file programmatically? Any language is welcome. I have found several libraries with Python, Java, and also PHP but none of them do the job.

推荐答案

好的,经过查找,我找到了将突出显示的文本从 pdf 导出到文本文件的解决方案.不是很难:

Ok, after looking I found a solution for exporting highlighted text from a pdf to a text file. Is not very hard:

  1. 首先,使用您喜欢使用的工具突出显示文本(就我而言,我在使用 Goodreader 应用程序在 iPad 上阅读时突出显示).

  1. First, you highlight your text with the tool you like to use (in my case, I highlight while I'm reading on an iPad using Goodreader app).

将您的 pdf 传输到计算机并使用 Skim(一种 pd​​f 阅读器,免费且易于在网络上找到)打开它

Transfer your pdf to a computer and open it using Skim (a pdf reader, free and easy to find on the web)

在 FILE 上,选择 CONVERT NOTES 并将文档的所有笔记转换为 SKIM NOTES.

On FILE, choose CONVERT NOTES and convert all the notes of your document to SKIM NOTES.

仅此而已:只需转到 EXPORT 并选择 EXPORT SKIM NOTES.它将导出您突出显示的文本列表.此列表打开后可以再次导出为 txt 格式的文件.

That's all: simply go to EXPORT an choose EXPORT SKIM NOTES. It will export you a list of your highlighted text. Once opened this list can be exported again to a txt format file.

没有多少工作要做,结果很棒.

Not much work to do, and the result is fantastic.

这篇关于如何从 PDF 文件中提取突出显示的部分的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆