apache-tika相关内容
我有很多文件夹,每个文件夹中都有几个pdf文件(也有其他文件类型,例如.xlsx或.doc).我的目标是为每个文件夹提取pdf文本并创建一个数据框,其中每个记录都是“文件夹名称".并且每一列以字符串形式表示该文件夹中每个pdf文件的文本内容. 我设法用 tika 包(下面的代码)从一个pdf文件中提取了文本.但是无法循环访问该文件夹或其他文件夹中的其他pdf,从而构造出结构化的数据框.
..
按照
..
Apache Tika Server提供了Rest API来从文档中提取文本.还可以设置特定的请求标头参数,例如 X-Tika-PDFOcrStrategy .例如: $ curl -T test/Dokument01.pdf http://localhost:9998/tika --header"X-Tika-PDFOcrStrategy:ocr_only" 从关于tika的许多不同文档
..
我有一个pdf(或其他任何类型的文件,例如.doc,.ppt等),其中包含文本和图像.如何使用Tika从这些文件中提取图像? 还可以使用Tess4j或任何其他lib在提取的图像上运行OCR吗? 这就是我叫Tika的方式: AutoDetectParser解析器= new AutoDetectParser();BodyContentHandler处理程序= new BodyConte
..
我正在利用solr ExtractingRequestHandler提取HTML内容并为其编制索引.我的问题涉及它产生的提取的链接部分.返回的提取内容在HTML源代码中不存在的地方插入了“矩形". 我的solrconfig单元配置如下:
..
我有一堆pdf文件,有些是可搜索的常规pdf文件,有些是一些无法搜索的文档的扫描版本.我想提取每个pdf的内容.要提取常规pdf的内容,请使用 Apache Tika ,并从我正在使用的不可搜索的内容中提取内容 tesseract-ocr .但是,我需要区分哪个pdf是标准pdf,哪个不是.有什么办法吗? 解决方案 这将为您提供帮助, 公共静态布尔isSearchablePdf(Stri
..
我正在Windows 10 jre 1.8.0_181上使用Apache Tika,并且已经使用Maven导入了Tika,并具有以下依赖性: junit junit 3.8.1 test
..
我已将所有不同类型的文件存储在Azure Blob存储上,文件是txt,doc,pdf等.但是,所有文件都存储为“八位字节流",当我打开文件以使用Tika从其中提取文本时,Tika无法检测到字符编码.我该如何解决这个问题? FileSystem fs = FileSystem.get(new Configuration()); Path pt = new Path(C
..
全部: 我尝试使用Apache Tika来构建应用程序以解析PDF,但是我想知道从哪里可以得到tika-core/target/tika-core- .jar和tika-parsers/target/tika-parsers之类的库- .jar 我只找到tika-app,但上面没有这样的罐子. http://tika.apache.org/1.11/gettingstarted.
..
我在wildfly模块中使用Apache Tika(tika-app 1.17). 当我开始提取PDF时,它总是会引发错误: java.lang.NoClassDefFoundError:无法初始化类 org.apache.pdfbox.pdmodel.font.PDFont 对于其他文件扩展名,它可以正常工作. 我已经尝试了apache-tika module.xml到PDFbox中
..
我对外部库没有太多运气,所以我只是在使用实用程序的任何项目中都包含了实用程序源. 现在我有一个需要Apache Tika的项目,所以我必须具有类似以下的库设置: 但是要从Netbeans外部运行程序,我显然(按dist文件夹中的readme.txt)需要压缩.jar和lib文件夹,解压缩该压缩文件,提取内容,然后从提取到任何地方. 但是Tika库为45MB. 我只使用了ti
..
我最近更新了现有的tika项目,以使用1.13而不是1.10.我所做的唯一一件事就是将依赖性版本从1.10更改为1.13.该项目已成功构建.但是,每当我尝试运行该应用程序时,都会出现此异常: java.lang.RuntimeException: Unable to parse the default media type registry at org.apache.tika.mi
..
我已经用solr安装了tika,并且对于阿拉伯语pdf来说运行良好,是否有任何教程可以做到这一点,我看到了与此类似的问题,并且解决方案包括ICU4J.jar,但我不知道现在不是什么意思 解决方案 ICU4J可以在此处下载: http://site.icu-project.org/download
..
我正在使用DIH索引本地文件系统.但是没有存储文件路径,大小和最后修改的字段.在我定义的schema.xml中:
..
我正在使用集成在SOLR中的Tika来对文档建立索引,并允许在所述文档中进行搜索.这工作非常顺利(现在,我的设置与SOLR附带的示例完全相同),并且确实可以索引和搜索文档.除了为文档建立索引之外,我还希望将二进制版本存储在SOLR中,这样当搜索返回结果时,我可以返回完整的PDF/Word/etc.下载文件.这可能吗? 解决方案 不是. Solr是全文搜索引擎,不提供任何开箱即用的实现来存
..
我具有在Linux上使用tika读取文档文件的功能: def read_doc(doc_path): output_path=doc_path+'.txt' java_path='/home/jdk1.7.0_17/jre/bin/' environ = os.environ.copy() environ['JAVA_HOME'] =java_path
..
我需要将MSWord文件转换为XML或HTML,同时保留文件(主要是表)的结构.我碰巧发现了tika,它在从MSword文件(和任何文件)中提取文本方面非常强大,如下所示: curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text ,然后我可以从选项中进行选择,以将输出保存到html/X
..
例如,可以使用Apache Tika从字节数组中提取模仿类型. 是否可以从字节数组中获取文件名. 解决方案 否.您可以从内容数据本身猜测一个模仿类型,但是文件名不在其中.
..
我正在将Java与apache tika 1.18结合使用,以将某些文件转换为TXT. 当我尝试使用AutoDetectParser()时,出现错误: [ERROR]在错误处理期间发生错误,请放弃! org.apache.commons.compress.archivers.ArchiveStreamFactory.detect(Ljava/io/InputStream;)Ljava/lan
..
我正在尝试让Solr索引数据库,其中一列是我要索引的PDF文档的文件名.我的配置如下:
..