apache-tika相关内容
我需要比较并获得两个PDF文件中的所有视觉差异.我知道在堆栈溢出时有一些与此相关的问题,但它们并不能满足我的需求. 我目前正在使用PDFBox为PDF页面生成图像并比较图像的字节. 通过这种方法,我可以知道特定页面有所不同. 但是我需要了解一些更详细的细节,例如某些文本的字体大小,例如-“文本"的页码有所不同,例如PDF中的6. 不仅要处理文本,而且还要注意所有视觉差异,例
..
Test message.
More content here...
Best regar
..
我正在尝试解决Apache Tika(> v 1.14)解析作业的spark-submit classpath运行时问题.问题似乎涉及spark-submit classpath与我的uber-jar. 平台:CDH 5.15(通过CDH文档添加了 Spark 2.3 )和CDH 6(CDH 6中捆绑了Spark 2.2) 我已经尝试过/评论过: (stackoverflow)r
..
为了启动可从本地主机以外的主机访问的Tika服务器,我们知道要走的路是(比如说我有1.7版本,想在端口9998上运行) java -jar tika-server-1.7-SNAPSHOT.jar -host 0.0.0.0 我的问题是:是否有适当的方法可以通过命令正确停止此服务器,或者是杀死进程的唯一方法? 解决方案 截至2019年10月,尚无编程方式将其关闭. 文档注释:
..
我的(网络)应用程序中具有以下工作流程: 从档案中下载pdf文件 为文件编制索引 删除文件 我的问题是,在对文件建立索引之后,它保持锁定状态,而删除部分会引发异常. 这是我为文件建立索引的代码段: try { ContentStreamUpdateRequest req = new ContentStreamUpdateRequest("/update/extra
..
我正在寻找pdf和MS Office文档格式的解析器,以从文件中提取表格信息.看到Apache Tika时,我正在考虑编写单独的实现.我可以从任何这些文件格式中提取全文.但是我的要求是提取表格数据,我希望其中的2列为键值格式.我检查了网络上大多数可用的东西以寻求解决方案,但找不到任何东西. 有任何指针吗? 解决方案 好吧,我继续使用apache poi分别实现了MS格式.我回到Tika取得
..
请能够做到这一点的任何人解释一下如何做到这一点:-) 我需要获取需要添加的语言的n-gram文件吗? 是否需要创建tika.language.override.properties,添加其他一些语言代码并在classPath上添加lang-code.ngp n-gram文件?在那种情况下,如果只是这个问题,我该从哪里得到呢?为什么Tika不支持更多的语言? 当前支持这些语言以进行
..
我需要编写一个Java类,比较两个pdf文件并指出差异(文本/位置/字体中的差异) 使用某种突出显示. 我最初的方法是使用pdfbox使用pdfbox解析文件,并使用某种数据结构存储提取的文本,这将有助于我进行比较. 是否有任何Java库可以提取文本,保留格式,帮助我建立索引和进行比较.我可以为此使用tika/google的diff-match. tika以xhtml的形式提取文本,但是我如何比较
..
我正在寻找将Rich类型的文档(Pdf,Doc,rtf,txt)编入Solr的索引.我找到了Tika作为解决方案.我在网络上大声疾呼,但没有找到任何文档/链接使其可与ExtractingRequestHandler配合使用. 任何人都可以提供使用ExtractingRequestHandler配置Tika的分步方法. 先谢谢了:) 解决方案 检查 ExtractingReque
..
在我的应用程序中添加 tika解析器后,我的Spring应用程序出现以下错误.我在wildfly 10.1.1 final上运行该应用程序. 11:11:30,371 ERROR [org.jboss.msc.service.fail] (MSC service thread 1-2) MSC000001: Failed to start service jboss.deployment.u
..
我使用Tika已有一段时间了,我知道应该只使用具有默认或自定义TikaConfig(代表org/apache/tika/mime/tika-mimetypes.xml文件)的Tika Facade. 我的应用程序不允许使用不同于html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg 的任何文档类型 ,默认的MediaTypes包
..
我正在尝试从各种文档中提取所有文本. 为此,我使用的是Apache Tika 1.4. RecursiveTikaParser parser = new RecursiveTikaParser(new AutoDetectParser()); ParseContext parseContext = new ParseContext(); parseContext.set(Parser.cla
..
我已经找到了一些与此问题相关的解决方案.如我将解释的那样,相关的解决方案对我不起作用. (我正在使用Solr 4.0,并为存储在Oracle 11g数据库中的数据建立索引.) Jonck van der Kogel(从2009年开始)的相关解决方案由于Kogel的解决方案似乎走在正确的道路上,是否有办法在自定义的Transformer中使用Solr随附的Tika类?这样一来,Kogel优雅的
..
我对Stack Overflow的第一篇文章,请保持温柔!我将为客户启动一个新的Ruby on Rails(3.1)项目.他们的要求之一是要有一个搜索引擎,该引擎将为大约2,000个包含PDF,Word,Excel和HTML的文档编制索引. 我曾经希望使用思想狮身人面像或Texticle(在 https:/上最受欢迎/www.ruby-toolbox.com/categories/rails
..
这是我的班级,用于读取哑剧类型.我试图添加一个新的mime类型(属性文件)并读取它. 这是我的课程文件: /* * To change this license header, choose License Headers in Project Properties. * To change this template file, choose Tools | Templates
..
我正在使用Apache Tika,并且我有特定内容类型的文件(不带扩展名),需要重命名以具有反映内容类型的扩展名. 是否知道有什么我可以使用的东西,而不是根据内容类型名称从头开始编写的东西? 解决方案 您要查看文件tika-mimetypes.xml->查看tika的源代码,然后: org.apache.tika.mime.MimeTypesReader } els
..
是否可以使用solr单元使用数据导入处理程序对丰富的文档(pdf,office)...建立索引. 我使用solr 3.2. 谢谢. 解决方案 Solr Cell,又名 ExtractingRequestHandler ,在后台使用 Apache Tika ,并且后者可以轻松集成到DataImportHandler中:
..
对此问题的引用我想发送一个MS Word(.doc)文件到作为服务运行的tika应用程序中,我该怎么做? 此链接用于运行tika: http://mimi.kaktusteam .de/blog-posts/2013/02/running-apache-tika-in-server-mode/ 但是对于要访问它的python代码,我不确定是否可以使用套接字或urllib或到底使用什么?
..
我正在尝试提取HTML文件的元标记,并通过tika集成将它们索引到solr中.我无法使用Tika提取这些元标记,也无法在solr中显示. 我的HTML文件是这样的.
..
我正在使用Tika解析大型的pdf和word文档,但是我得到他的错误消息. Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limi
..