apache-tika相关内容
有一个 PDF 文档包含不应由 Tika 提取的附件(此处:joboptions).不应将内容发送到 Solr.有没有办法在 Tika 配置中排除某些(或全部)PDF 附件? 解决方案 实现自定义 org.apache.tika.extractor.DocumentSelector 并将其设置在 ParseContext.使用嵌入文档的元数据调用 DocumentSelector 以决定是
..
我正在使用 Apache Tika 编写主题建模程序,以从其他文件类型中提取文本内容.实际上它在 Eclipse 上完美运行.但是当我导出到 JAR 文件以从 Window 10 的命令提示符使用时.当它尝试代码时会出现此错误消息:“parser.parse(stream, handler, metadata, parseContext);" "java.lang.SecurityExcep
..
我想提取除页眉和页脚之外的 html 的整个正文内容,但是我遇到了异常 org.xml.sax.SAXException:命名空间 http://www.w3.org/1999/xhtml 未声明 下面是我在 at 中创建的代码> import org.apache.tika.exception.TikaException;导入 org.apache.tika.io.TikaInpu
..
我在我的应用程序中使用 PDF Box version 2.0.9.我必须从网络解析大型 pdf 文件.以下是我正在使用的代码 MimeDetector 类 @Getter@Setter类 MimeTypeDetector {私有 ByteArrayInputStream byteArrayInputStream;私有 BodyContentHandler bodyContentHand
..
我的 pdf 包含扫描图像,我想从中提取文本. 我的尝试:我尝试使用 AutoDetectParsers 但没有输出. 我遵循了 Apache Tika 提取中提供的解决方案扫描的 PDF 文件以及 https://issues.apache 的 Apache Tika Jira.org/jira/browse/TIKA-1729 但得到空字符串没有任何错误. 我的配置:Win
..
我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加
..
我正在使用 Apache Tika,我有特定内容类型的文件(没有扩展名),需要重命名以具有反映内容类型的扩展名. 知道有什么我可以使用而不是基于内容类型名称从头开始编程的吗? 解决方案 你想查看文件 tika-mimetypes.xml -> 查看 tika 的源代码和: org.apache.tika.mime.MimeTypesReader} else if (nodeElem
..
我正在尝试提取 HTML 文件的元标记,并通过 tika 集成将它们索引到 solr 中.我无法使用 Tika 提取这些元标记,也无法在 solr 中显示. 我的 HTML 文件是这样的.
..
我正在尝试使用 TikaEntityProcessor 来索引 .html 文件内容.不知何故,我无法正确获取它.我检查了错误日志,发现以下错误. 严重:完全导入失败:java.lang.RuntimeException:org.apache.solr.handler.dataimport.DataImportHandlerException:无法加载实体的 EntityProcessor 实现
..
Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本.也可以设置特定的请求头参数,如 X-Tika-PDFOcrStrategy.例如: $ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only" 从许多关于 tika 的不同文档
..
我使用 Solr 的 php 扩展与 Apache Solr 交互.我正在索引数据库中的数据.我也想索引外部文件(如 PDF、PPTX)的内容. 索引的逻辑是:假设 schema.xml 定义了以下字段:
..
我正在使用 Tika 解析大型 pdf 和 word 文档,但我收到了他的以下错误消息. 您的文档包含超过 100000 个字符,因此已达到您请求的限制.要接收文档的全文,请增加您的限制.(但是可以使用达到限制的文本). 如何提高限额? 解决方案 假设您基本上遵循 Tika 示例提取到纯文本,那么你需要做的就是创建您的 BodyContentHandler,写入限制为 -1 以禁用
..
我是 Apache Solr 的新手,我想用它来索引 pdf 文件.到目前为止,我设法启动并运行了它,现在我可以搜索添加的 pdf 文件. 但是,我需要能够从结果中检索搜索到的文本. 我在默认的 solrconfig.xml 中找到了一个与此相关的 xml 片段:
..
我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常.不过,我很难找到有关如何索引文档的任何连贯信息.我是 SOLR 的新手,所以请耐心等待!我有一个文件夹 (/mnt/folder),它是一个挂载的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?
..
当我尝试从我的 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件,但在几个页面上似乎都在做同样的
..
我刚刚开始使用 elasticsearch.我们的要求是我们需要索引数千个 PDF 文件,而我很难让其中一个文件成功索引. 安装附件类型插件并得到响应:Installed mapper-attachments. 遵循附件类型操作教程 但进程挂起并且我不知道如何解释错误消息.还尝试了挂在同一位置的 gist. $ curl -X POST "localhost:9200/test/at
..
我正在尝试解析一些包含工程图纸的 PDF 文件以获取文件中的文本数据.我尝试将 TIKA 用作带有 python 的 jar 并将其与 jnius 包一起使用(在此处使用本教程:http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html) 但代码抛出错误. 使用 TIKA 包,但是我能够传递文件并解析它们,但是
..
谁能给我指点教程. 我使用 Solr 的主要经验是索引 CSV 文件.但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么. 我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler 但这对我来说意义不大.我需要安装 Tika 吗? 我迷路了 - 请帮忙 解决方案 其中最难的部分是使用 Aper
..
对于 odt、ppt、pptx、xlsx 等文档,我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice. 如果您查看 mimetypes.xml,则有 mimeType 元素由 iana.org mime-type 和“sub-class-of"组成
..
下面的代码可以完美地将 html 转换为纯文本... Url url = 新的 URL(your_url);输入流是 = url.openStream();ContentHandler textHandler = new BodyContentHandler();元数据元数据 = new Metadata();AutoDetectParser 解析器 = new AutoDetectParser
..