使用 Apache Tika 在 solr 中提取 PDF 文件 [英] ContentExtraction of PDF file in solr using Apache Tika

查看:44
本文介绍了使用 Apache Tika 在 solr 中提取 PDF 文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用以下教程在 solr 中索引 PDF 文件http://wiki.apache.org/solr/ExtractingRequestHandler但每次我发出命令

I am trying to index the PDF file in the solr using the following tutorial http://wiki.apache.org/solr/ExtractingRequestHandler But everytime i am firing the command

java -jar post.jar *.pdf

它说一些 org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error请帮助我将 PDF 索引到 solr 服务器.是否还有其他集成可以帮助我.

it says some org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error Kindly help me in indexing the PDF to solr server.Is there any other integration then tika which can help me.

推荐答案

Post.jar 只是一个将文件上传到 Solr 的实用程序.
Solr 使用 Extract 处理程序,因此您需要提供 url.例如

Post.jar is just an utility to upload files to Solr.
Solr uses Extract handler so you need to provide as url. e.g.

java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

对于加密文件,请检查 link
对于受密码保护的文件,请检查 link

For encrpted files check link
For Password Protected Files check link

这篇关于使用 Apache Tika 在 solr 中提取 PDF 文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆