使用Apache Tika在solr中的PDF文件的ContentExtraction [英] ContentExtraction of PDF file in solr using Apache Tika
问题描述
我正在尝试使用以下教程索引solr中的PDF文件
http:/ /wiki.apache.org/solr/ExtractingRequestHandler
但每次我发出命令
I am trying to index the PDF file in the solr using the following tutorial http://wiki.apache.org/solr/ExtractingRequestHandler But everytime i am firing the command
java -jar post.jar *.pdf
它说一些org.apache.solr.common.SolrException:无效的UTF-8中间字节0xe3错误
请帮我将PDF索引到solr server.Is还有其他集成然后tika可以帮助我。
it says some org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error Kindly help me in indexing the PDF to solr server.Is there any other integration then tika which can help me.
推荐答案
Post.jar只是一个将文件上传到Solr的工具。
Solr使用Extract处理程序,因此您需要提供url。例如
Post.jar is just an utility to upload files to Solr.
Solr uses Extract handler so you need to provide as url. e.g.
java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf
对于加密文件,请检查链接
对于受密码保护的文件,请检查 link
For encrpted files check link
For Password Protected Files check link
这篇关于使用Apache Tika在solr中的PDF文件的ContentExtraction的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!