apache-tika相关内容

Tika Parser:排除 PDF 附件

有一个 PDF 文档包含不应由 Tika 提取的附件(此处:joboptions).不应将内容发送到 Solr.有没有办法在 Tika 配置中排除某些(或全部)PDF 附件? 解决方案 实现自定义 org.apache.tika.extractor.DocumentSelector 并将其设置在 ParseContext.使用嵌入文档的元数据调用 DocumentSelector 以决定是 ..
发布时间:2021-11-14 23:44:59 其他开发

"java.lang.SecurityException: 禁止的包名:java.sql"错误仅在 Eclipse 之外执行时发生

我正在使用 Apache Tika 编写主题建模程序,以从其他文件类型中提取文本内容.实际上它在 Eclipse 上完美运行.但是当我导出到 JAR 文件以从 Window 10 的命令提示符使用时.当它尝试代码时会出现此错误消息:“parser.parse(stream, handler, metadata, parseContext);" "java.lang.SecurityExcep ..
发布时间:2021-11-14 23:44:56 Java开发

PDFBox 的内存泄漏问题

我在我的应用程序中使用 PDF Box version 2.0.9.我必须从网络解析大型 pdf 文件.以下是我正在使用的代码 MimeDetector 类 @Getter@Setter类 MimeTypeDetector {私有 ByteArrayInputStream byteArrayInputStream;私有 BodyContentHandler bodyContentHand ..
发布时间:2021-11-14 23:44:47 其他开发

如何使用nutch和索引特定标签解析html到solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加 ..
发布时间:2021-11-14 23:44:41 其他开发

如何从内容类型获取文件扩展名?

我正在使用 Apache Tika,我有特定内容类型的文件(没有扩展名),需要重命名以具有反映内容类型的扩展名. 知道有什么我可以使用而不是基于内容类型名称从头开始编程的吗? 解决方案 你想查看文件 tika-mimetypes.xml -> 查看 tika 的源代码和: org.apache.tika.mime.MimeTypesReader} else if (nodeElem ..
发布时间:2021-11-14 23:44:38 Java开发

无法使用 solr4 配置 Tika1.2

我正在尝试使用 TikaEntityProcessor 来索引 .html 文件内容.不知何故,我无法正确获取它.我检查了错误日志,发现以下错误. 严重:完全导入失败:java.lang.RuntimeException:org.apache.solr.handler.dataimport.DataImportHandlerException:无法加载实体的 EntityProcessor 实现 ..
发布时间:2021-11-14 23:44:31 其他开发

Apache Tika 服务器 - 请求标头参数?

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本.也可以设置特定的请求头参数,如 X-Tika-PDFOcrStrategy.例如: $ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only" 从许多关于 tika 的不同文档 ..
发布时间:2021-11-14 23:44:28 其他开发

如何使用 TIka 读取大文件?

我正在使用 Tika 解析大型 pdf 和 word 文档,但我收到了他的以下错误消息. 您的文档包含超过 100000 个字符,因此已达到您请求的限制.要接收文档的全文,请增加您的限制.(但是可以使用达到限制的文本). 如何提高限​​额? 解决方案 假设您基本上遵循 Tika 示例提取到纯文本,那么你需要做的就是创建您的 BodyContentHandler,写入限制为 -1 以禁用 ..
发布时间:2021-11-14 23:44:22 其他开发

使用 Apache Solr 检索提取的文本

我是 Apache Solr 的新手,我想用它来索引 pdf 文件.到目前为止,我设法启动并运行了它,现在我可以搜索添加的 pdf 文件. 但是,我需要能够从结果中检索搜索到的文本. 我在默认的 solrconfig.xml 中找到了一个与此相关的 xml 片段: ..
发布时间:2021-11-14 23:44:19 服务器开发

如何在 SOLR 中索引文档?

我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常.不过,我很难找到有关如何索引文档的任何连贯信息.我是 SOLR 的新手,所以请耐心等待!我有一个文件夹 (/mnt/folder),它是一个挂载的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么? ..
发布时间:2021-11-14 23:44:17 其他开发

PDFBox 在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件,但在几个页面上似乎都在做同样的 ..
发布时间:2021-11-14 23:44:14 其他开发

尝试索引 PDF 时出现 Elasticsearch Parse Exception 错误

我刚刚开始使用 elasticsearch.我们的要求是我们需要索引数千个 PDF 文件,而我很难让其中一个文件成功索引. 安装附件类型插件并得到响应:Installed mapper-attachments. 遵循附件类型操作教程 但进程挂起并且我不知道如何解释错误消息.还尝试了挂在同一位置的 gist. $ curl -X POST "localhost:9200/test/at ..
发布时间:2021-11-14 23:44:11 其他开发

如何在 python(2.7) 中使用 Tika 包 (https://github.com/chrismatmann/tika-python) 来解析 PDF 文件?

我正在尝试解析一些包含工程图纸的 PDF 文件以获取文件中的文本数据.我尝试将 TIKA 用作带有 python 的 jar 并将其与 jnius 包一起使用(在此处使用本教程:http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html) 但代码抛出错误. 使用 TIKA 包,但是我能够传递文件并解析它们,但是 ..
发布时间:2021-11-14 23:44:08 Python

使用 Solr 索引 PDF

谁能给我指点教程. 我使用 Solr 的主要经验是索引 CSV 文件.但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么. 我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler 但这对我来说意义不大.我需要安装 Tika 吗? 我迷路了 - 请帮忙 解决方案 其中最难的部分是使用 Aper ..
发布时间:2021-11-14 23:44:04 其他开发