使用Apache Tika在solr中的PDF文件的ContentExtraction [英] ContentExtraction of PDF file in solr using Apache Tika

查看:229
本文介绍了使用Apache Tika在solr中的PDF文件的ContentExtraction的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用以下教程索引solr中的PDF文件
http:/ /wiki.apache.org/solr/ExtractingRequestHandler
但每次我发出命令

I am trying to index the PDF file in the solr using the following tutorial http://wiki.apache.org/solr/ExtractingRequestHandler But everytime i am firing the command

java -jar post.jar *.pdf

它说一些org.apache.solr.common.SolrException:无效的UTF-8中间字节0xe3错误
请帮我将PDF索引到solr server.Is还有其他集成然后tika可以帮助我。

it says some org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error Kindly help me in indexing the PDF to solr server.Is there any other integration then tika which can help me.

推荐答案

Post.jar只是一个将文件上传到Solr的工具。

Solr使用Extract处理程序,因此您需要提供url。例如

Post.jar is just an utility to upload files to Solr.
Solr uses Extract handler so you need to provide as url. e.g.

java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

对于加密文件,请检查链接

对于受密码保护的文件,请检查 link

For encrpted files check link
For Password Protected Files check link

这篇关于使用Apache Tika在solr中的PDF文件的ContentExtraction的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆