apache-tika相关内容

如何以编程方式基于视觉差异比较两个PDF?

我需要比较并获得两个PDF文件中的所有视觉差异.我知道在堆栈溢出时有一些与此相关的问题,但它们并不能满足我的需求. 我目前正在使用PDFBox为PDF页面生成图像并比较图像的字节. 通过这种方法,我可以知道特定页面有所不同. 但是我需要了解一些更详细的细节,例如某些文本的字体大小,例如-“文本"的页码有所不同,例如PDF中的6. 不仅要处理文本,而且还要注意所有视觉差异,例 ..
发布时间:2020-09-04 23:06:04 Java开发

正确停止Tika服务器

为了启动可从本地主机以外的主机访问的Tika服务器,我们知道要走的路是(比如说我有1.7版本,想在端口9998上运行) java -jar tika-server-1.7-SNAPSHOT.jar -host 0.0.0.0 我的问题是:是否有适当的方法可以通过命令正确停止此服务器,或者是杀死进程的唯一方法? 解决方案 截至2019年10月,尚无编程方式将其关闭. 文档注释: ..
发布时间:2020-09-04 23:05:19 Java开发

索引后锁定的文件

我的(网络)应用程序中具有以下工作流程: 从档案中下载pdf文件 为文件编制索引 删除文件 我的问题是,在对文件建立索引之后,它保持锁定状态,而删除部分会引发异常. 这是我为文件建立索引的代码段: try { ContentStreamUpdateRequest req = new ContentStreamUpdateRequest("/update/extra ..
发布时间:2020-09-04 23:05:16 其他开发

是否可以使用Apache Tika提取表信息?

我正在寻找pdf和MS Office文档格式的解析器,以从文件中提取表格信息.看到Apache Tika时,我正在考虑编写单独的实现.我可以从任何这些文件格式中提取全文.但是我的要求是提取表格数据,我希望其中的2列为键值格式.我检查了网络上大多数可用的东西以寻求解决方案,但找不到任何东西. 有任何指针吗? 解决方案 好吧,我继续使用apache poi分别实现了MS格式.我回到Tika取得 ..
发布时间:2020-09-04 23:05:14 Java开发

将语言配置文件添加到Apache Tika

请能够做到这一点的任何人解释一下如何做到这一点:-) 我需要获取需要添加的语言的n-gram文件吗? 是否需要创建tika.language.override.properties,添加其他一些语言代码并在classPath上添加lang-code.ngp n-gram文件?在那种情况下,如果只是这个问题,我该从哪里得到呢?为什么Tika不支持更多的语言? 当前支持这些语言以进行 ..
发布时间:2020-09-04 23:05:09 Java开发

使用Java比较两个pdf文件(方法)

我需要编写一个Java类,比较两个pdf文件并指出差异(文本/位置/字体中的差异) 使用某种突出显示. 我最初的方法是使用pdfbox使用pdfbox解析文件,并使用某种数据结构存储提取的文本,这将有助于我进行比较. 是否有任何Java库可以提取文本,保留格式,帮助我建立索引和进行比较.我可以为此使用tika/google的diff-match. tika以xhtml的形式提取文本,但是我如何比较 ..
发布时间:2020-09-04 23:05:07 Java开发

使用Solr配置Tika

我正在寻找将Rich类型的文档(Pdf,Doc,rtf,txt)编入Solr的索引.我找到了Tika作为解决方案.我在网络上大声疾呼,但没有找到任何文档/链接使其可与ExtractingRequestHandler配合使用. 任何人都可以提供使用ExtractingRequestHandler配置Tika的分步方法. 先谢谢了:) 解决方案 检查 ExtractingReque ..
发布时间:2020-09-04 23:05:04 其他开发

如何为几种文档类型正确配置Apache Tika?

我使用Tika已有一段时间了,我知道应该只使用具有默认或自定义TikaConfig(代表org/apache/tika/mime/tika-mimetypes.xml文件)的Tika Facade. 我的应用程序不允许使用不同于html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg 的任何文档类型 ,默认的MediaTypes包 ..
发布时间:2020-09-04 23:03:56 Java开发

如何使用Solr 4.0+索引数据库BLOB中包含的丰富格式文档?

我已经找到了一些与此问题相关的解决方案.如我将解释的那样,相关的解决方案对我不起作用. (我正在使用Solr 4.0,并为存储在Oracle 11g数据库中的数据建立索引.) Jonck van der Kogel(从2009年开始)的相关解决方案由于Kogel的解决方案似乎走在正确的道路上,是否有办法在自定义的Transformer中使用Solr随附的Tika类?这样一来,Kogel优雅的 ..
发布时间:2020-09-04 23:02:47 其他开发

从Rails应用程序中搜索附件(Word,PDF,Excel等)

我对Stack Overflow的第一篇文章,请保持温柔!我将为客户启动一个新的Ruby on Rails(3.1)项目.他们的要求之一是要有一个搜索引擎,该引擎将为大约2,000个包含PDF,Word,Excel和HTML的文档编制索引. 我曾经希望使用思想狮身人面像或Texticle(在 https:/上最受欢迎/www.ruby-toolbox.com/categories/rails ..
发布时间:2020-09-04 23:02:44 其他开发

如何为Apache Tika添加新的MIME类型

这是我的班级,用于读取哑剧类型.我试图添加一个新的mime类型(属性文件)并读取它. 这是我的课程文件: /* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates ..
发布时间:2020-09-04 23:02:39 Java开发

如何从内容类型获取文件扩展名?

我正在使用Apache Tika,并且我有特定内容类型的文件(不带扩展名),需要重命名以具有反映内容类型的扩展名. 是否知道有什么我可以使用的东西,而不是根据内容类型名称从头开始编写的东西? 解决方案 您要查看文件tika-mimetypes.xml->查看tika的源代码,然后: org.apache.tika.mime.MimeTypesReader } els ..
发布时间:2020-09-04 23:02:34 Java开发

python将文件发送到作为服务运行的tika

对此问题的引用我想发送一个MS Word(.doc)文件到作为服务运行的tika应用程序中,我该怎么做? 此链接用于运行tika: http://mimi.kaktusteam .de/blog-posts/2013/02/running-apache-tika-in-server-mode/ 但是对于要访问它的python代码,我不确定是否可以使用套接字或urllib或到底使用什么? ..
发布时间:2020-09-04 23:01:17 Python

如何使用TIka读取大文件?

我正在使用Tika解析大型的pdf和word文档,但是我得到他的错误消息. Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limi ..
发布时间:2020-09-04 23:01:11 其他开发