apache-tika 第5页 - IT屋-程序员软件开发技术分享社区

Tika Parser:排除 PDF 附件

有一个 PDF 文档包含不应由 Tika 提取的附件(此处:joboptions).不应将内容发送到 Solr.有没有办法在 Tika 配置中排除某些(或全部)PDF 附件? 解决方案实现自定义 org.apache.tika.extractor.DocumentSelector 并将其设置在 ParseContext.使用嵌入文档的元数据调用 DocumentSelector 以决定是 ..

发布时间：2021-11-14 23:44:59 pdf solr apache-tika 其他开发

"java.lang.SecurityException: 禁止的包名:java.sql"错误仅在 Eclipse 之外执行时发生

我正在使用 Apache Tika 编写主题建模程序，以从其他文件类型中提取文本内容.实际上它在 Eclipse 上完美运行.但是当我导出到 JAR 文件以从 Window 10 的命令提示符使用时.当它尝试代码时会出现此错误消息:“parser.parse(stream, handler, metadata, parseContext);" "java.lang.SecurityExcep ..

发布时间：2021-11-14 23:44:56 java eclipse apache-tika Java开发

Apache Tika 如何提取没有页眉和页脚内容的 html 正文

我想提取除页眉和页脚之外的 html 的整个正文内容，但是我遇到了异常 org.xml.sax.SAXException:命名空间 http://www.w3.org/1999/xhtml 未声明下面是我在 at 中创建的代码> import org.apache.tika.exception.TikaException;导入 org.apache.tika.io.TikaInpu ..

发布时间：2021-11-14 23:44:53 html parsing apache-tika boilerpipe 前端开发

PDFBox 的内存泄漏问题

我在我的应用程序中使用 PDF Box version 2.0.9.我必须从网络解析大型 pdf 文件.以下是我正在使用的代码 MimeDetector 类 @Getter@Setter类 MimeTypeDetector {私有 ByteArrayInputStream byteArrayInputStream;私有 BodyContentHandler bodyContentHand ..

发布时间：2021-11-14 23:44:47 pdfbox apache-tika 其他开发

无法使用 TesseractOCRConfig Apache Tika 提取扫描的 pdf

我的 pdf 包含扫描图像，我想从中提取文本. 我的尝试:我尝试使用 AutoDetectParsers 但没有输出. 我遵循了 Apache Tika 提取中提供的解决方案扫描的 PDF 文件以及 https://issues.apache 的 Apache Tika Jira.org/jira/browse/TIKA-1729 但得到空字符串没有任何错误. 我的配置:Win ..

发布时间：2021-11-14 23:44:44 java parsing pdf ocr apache-tika Java开发

如何使用nutch和索引特定标签解析html到solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索；如您所知，我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签确实，我想在此页面中向 solr(某物)添加 ..

发布时间：2021-11-14 23:44:41 solr nutch apache-tika 其他开发

如何从内容类型获取文件扩展名?

我正在使用 Apache Tika，我有特定内容类型的文件(没有扩展名)，需要重命名以具有反映内容类型的扩展名. 知道有什么我可以使用而不是基于内容类型名称从头开始编程的吗? 解决方案你想查看文件 tika-mimetypes.xml -> 查看 tika 的源代码和: org.apache.tika.mime.MimeTypesReader} else if (nodeElem ..

发布时间：2021-11-14 23:44:38 java content-type apache-tika Java开发

如何从 HTML 文件中提取元标记并在 SOLR 和 TIKA 中索引它们

我正在尝试提取 HTML 文件的元标记，并通过 tika 集成将它们索引到 solr 中.我无法使用 Tika 提取这些元标记，也无法在 solr 中显示. 我的 HTML 文件是这样的. ..

发布时间：2021-11-14 23:44:35 solr apache-tika data-import solr4 其他开发

无法使用 solr4 配置 Tika1.2

我正在尝试使用 TikaEntityProcessor 来索引 .html 文件内容.不知何故，我无法正确获取它.我检查了错误日志，发现以下错误. 严重:完全导入失败:java.lang.RuntimeException:org.apache.solr.handler.dataimport.DataImportHandlerException:无法加载实体的 EntityProcessor 实现 ..

发布时间：2021-11-14 23:44:31 solr apache-tika dataimporthandler solr4 其他开发

Apache Tika 服务器 - 请求标头参数?

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本.也可以设置特定的请求头参数，如 X-Tika-PDFOcrStrategy.例如: $ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only" 从许多关于 tika 的不同文档 ..

发布时间：2021-11-14 23:44:28 apache-tika tika-server 其他开发

使用 Apache Solr 索引 pdf 文件内容

我使用 Solr 的 php 扩展与 Apache Solr 交互.我正在索引数据库中的数据.我也想索引外部文件(如 PDF、PPTX)的内容. 索引的逻辑是:假设 schema.xml 定义了以下字段: ..

发布时间：2021-11-14 23:44:25 php solr apache-tika PHP

如何使用 TIka 读取大文件?

我正在使用 Tika 解析大型 pdf 和 word 文档，但我收到了他的以下错误消息. 您的文档包含超过 100000 个字符，因此已达到您请求的限制.要接收文档的全文，请增加您的限制.(但是可以使用达到限制的文本). 如何提高限额? 解决方案假设您基本上遵循 Tika 示例提取到纯文本，那么你需要做的就是创建您的 BodyContentHandler，写入限制为 -1 以禁用 ..

发布时间：2021-11-14 23:44:22 apache-tika 其他开发

使用 Apache Solr 检索提取的文本

我是 Apache Solr 的新手，我想用它来索引 pdf 文件.到目前为止，我设法启动并运行了它，现在我可以搜索添加的 pdf 文件. 但是，我需要能够从结果中检索搜索到的文本. 我在默认的 solrconfig.xml 中找到了一个与此相关的 xml 片段: ..

发布时间：2021-11-14 23:44:19 apache cell solr apache-tika 服务器开发

如何在 SOLR 中索引文档?

我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4，它似乎工作正常.不过，我很难找到有关如何索引文档的任何连贯信息.我是 SOLR 的新手，所以请耐心等待！我有一个文件夹 (/mnt/folder)，它是一个挂载的 Windows 共享，其中包含我想要索引的 Word 和 PDF 文件，让 SOLR 索引整个文件夹的最简单方法是什么? ..

发布时间：2021-11-14 23:44:17 solr full-text-search apache-tika solr-cell 其他开发

PDFBox 在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时，它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件，但在几个页面上似乎都在做同样的 ..

发布时间：2021-11-14 23:44:14 solr lucene pdfbox apache-tika 其他开发

尝试索引 PDF 时出现 Elasticsearch Parse Exception 错误

我刚刚开始使用 elasticsearch.我们的要求是我们需要索引数千个 PDF 文件，而我很难让其中一个文件成功索引. 安装附件类型插件并得到响应:Installed mapper-attachments. 遵循附件类型操作教程但进程挂起并且我不知道如何解释错误消息.还尝试了挂在同一位置的 gist. $ curl -X POST "localhost:9200/test/at ..

发布时间：2021-11-14 23:44:11 pdf base64 elasticsearch apache-tika osx-server 其他开发

如何在 python(2.7) 中使用 Tika 包 (https://github.com/chrismatmann/tika-python) 来解析 PDF 文件?

我正在尝试解析一些包含工程图纸的 PDF 文件以获取文件中的文本数据.我尝试将 TIKA 用作带有 python 的 jar 并将其与 jnius 包一起使用(在此处使用本教程:http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html) 但代码抛出错误. 使用 TIKA 包，但是我能够传递文件并解析它们，但是 ..

发布时间：2021-11-14 23:44:08 python parsing pdf apache-tika Python

使用 Solr 索引 PDF

谁能给我指点教程. 我使用 Solr 的主要经验是索引 CSV 文件.但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么. 我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler 但这对我来说意义不大.我需要安装 Tika 吗? 我迷路了 - 请帮忙解决方案其中最难的部分是使用 Aper ..

发布时间：2021-11-14 23:44:04 solr full-text-search solrj apache-tika solr-cell 其他开发

使用 Apache tika 获取 MimeType 子类型

对于 odt、ppt、pptx、xlsx 等文档，我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice. 如果您查看 mimetypes.xml，则有 mimeType 元素由 iana.org mime-type 和“sub-class-of"组成 ..

发布时间：2021-11-14 23:44:02 java mime-types detection apache-tika Java开发

java tika 如何将 html 转换为纯文本保留特定元素

下面的代码可以完美地将 html 转换为纯文本... Url url = 新的 URL(your_url);输入流是 = url.openStream();ContentHandler textHandler = new BodyContentHandler();元数据元数据 = new Metadata();AutoDetectParser 解析器 = new AutoDetectParser ..

发布时间：2021-11-14 23:43:59 java apache-tika Java开发

apache-tika相关内容