使用 Apache Tika 在 solr 中提取 PDF 文件 [英] ContentExtraction of PDF file in solr using Apache Tika
问题描述
我正在尝试使用以下教程在 solr 中索引 PDF 文件http://wiki.apache.org/solr/ExtractingRequestHandler但每次我发出命令
I am trying to index the PDF file in the solr using the following tutorial http://wiki.apache.org/solr/ExtractingRequestHandler But everytime i am firing the command
java -jar post.jar *.pdf
它说一些 org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error请帮助我将 PDF 索引到 solr 服务器.是否还有其他集成可以帮助我.
it says some org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error Kindly help me in indexing the PDF to solr server.Is there any other integration then tika which can help me.
推荐答案
Post.jar 只是一个将文件上传到 Solr 的实用程序.
Solr 使用 Extract 处理程序,因此您需要提供 url.例如
Post.jar is just an utility to upload files to Solr.
Solr uses Extract handler so you need to provide as url. e.g.
java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf
对于加密文件,请检查 link
对于受密码保护的文件,请检查 link
For encrpted files check link
For Password Protected Files check link
这篇关于使用 Apache Tika 在 solr 中提取 PDF 文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!