项目思路:搜索PDF目录 [英] Project Thoughts: Searching Directory of PDFs

查看:41
本文介绍了项目思路:搜索PDF目录的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

作为序言,我知道很多地方都在讨论这个问题.我读到的一半内容已经过时、有问题或与我的情况无关.

To preface this, I know there are discussions on this in various places. Half of what I read is outdated, buggy or simply unrelated to my situation.

这就是我将它带给我知道会得到答案的社区的原因.

This is why I am bringing it to the community that I know will have the answers.

问题:我有一个大约 70,000 页的 PDF 文档目录(在线是理想的)(文档范围从 20 到 100 页,加起来大约有 70,000 页).

Question: I have a directory (online is ideal) of around 70,000 pages in PDF documents (documents range from 20 - 100s of pages, add up to around 70,000 pages).

我正在寻找一种方法、脚本或想法,以便以最简单的方式在这些 PDF 中搜索产品.PDF 都有一个由 Acrobat 中的 OCR 创建的文本层.

I am looking for a method, script or idea for the easiest way to search these PDFs for products. The PDFs all have a text layer that was created by OCR in Acrobat.

任何想法,无论是精心设计的还是创造性的,都非常受欢迎.

Any ideas, whether they be elaborate or inventive, are more than welcome.

推荐答案

我的建议是 Apache Solr(使用 Lucene 构建的搜索服务器)并且使用它的 RESTful 接口非常简单.它还有一个名为 Tika 的子项目,它从多种格式(包括 PDF)中提取元数据和结构化文本内容.

My recommendation would be Apache Solr (a search server built using Lucene) and is dead simple to use using it RESTful interface. It also has a subproject called Tika which extracts metadata and structured text content from multiple formats (incl. PDF).

这篇关于项目思路:搜索PDF目录的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆