apache-tika相关内容

如何使用python从文件夹中的pdf中提取文本并将其保存在dataframe中?

我有很多文件夹,每个文件夹中都有几个pdf文件(也有其他文件类型,例如.xlsx或.doc).我的目标是为每个文件夹提取pdf文本并创建一个数据框,其中每个记录都是“文件夹名称".并且每一列以字符串形式表示该文件夹中每个pdf文件的文本内容. 我设法用 tika 包(下面的代码)从一个pdf文件中提取了文本.但是无法循环访问该文件夹或其他文件夹中的其他pdf,从而构造出结构化的数据框. ..
发布时间:2021-04-08 20:33:25 Python

Apache Tika Server-请求标头参数?

Apache Tika Server提供了Rest API来从文档中提取文本.还可以设置特定的请求标头参数,例如 X-Tika-PDFOcrStrategy .例如: $ curl -T test/Dokument01.pdf http://localhost:9998/tika --header"X-Tika-PDFOcrStrategy:ocr_only" 从关于tika的许多不同文档 ..
发布时间:2021-04-08 20:33:18 其他开发

如何使用Apache TIka从文件中提取图像?

我有一个pdf(或其他任何类型的文件,例如.doc,.ppt等),其中包含文本和图像.如何使用Tika从这些文件中提取图像? 还可以使用Tess4j或任何其他lib在提取的图像上运行OCR吗? 这就是我叫Tika的方式: AutoDetectParser解析器= new AutoDetectParser();BodyContentHandler处理程序= new BodyConte ..
发布时间:2021-04-08 20:33:15 其他开发

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆pdf文件,有些是可搜索的常规pdf文件,有些是一些无法搜索的文档的扫描版本.我想提取每个pdf的内容.要提取常规pdf的内容,请使用 Apache Tika ,并从我正在使用的不可搜索的内容中提取内容 tesseract-ocr .但是,我需要区分哪个pdf是标准pdf,哪个不是.有什么办法吗? 解决方案 这将为您提供帮助, 公共静态布尔isSearchablePdf(Stri ..
发布时间:2021-04-08 20:33:08 Java开发

如何使用Apache Tika解析八位字节流文件?

我已将所有不同类型的文件存储在Azure Blob存储上,文件是txt,doc,pdf等.但是,所有文件都存储为“八位字节流",当我打开文件以使用Tika从其中提取文本时,Tika无法检测到字符编码.我该如何解决这个问题? FileSystem fs = FileSystem.get(new Configuration()); Path pt = new Path(C ..
发布时间:2020-09-04 23:12:07 Java开发

哪里可以得到Apache Tika罐子?

全部: 我尝试使用Apache Tika来构建应用程序以解析PDF,但是我想知道从哪里可以得到tika-core/target/tika-core- .jar和tika-parsers/target/tika-parsers之类的库- .jar 我只找到tika-app,但上面没有这样的罐子. http://tika.apache.org/1.11/gettingstarted. ..
发布时间:2020-09-04 23:12:02 其他开发

在Netbeans 8.0.2和Java 8中使用Apache Tika 1.9会产生巨大的可执行文件.如何减小尺寸?

我对外部库没有太多运气,所以我只是在使用实用程序的任何项目中都包含了实用程序源. 现在我有一个需要Apache Tika的项目,所以我必须具有类似以下的库设置: 但是要从Netbeans外部运行程序,我显然(按dist文件夹中的readme.txt)需要压缩.jar和lib文件夹,解压缩该压缩文件,提取内容,然后从提取到任何地方. 但是Tika库为45MB. 我只使用了ti ..
发布时间:2020-09-04 23:10:51 Java开发

提卡1.13 RuntimeException

我最近更新了现有的tika项目,以使用1.13而不是1.10.我所做的唯一一件事就是将依赖性版本从1.10更改为1.13.该项目已成功构建.但是,每当我尝试运行该应用程序时,都会出现此异常: java.lang.RuntimeException: Unable to parse the default media type registry at org.apache.tika.mi ..
发布时间:2020-09-04 23:10:48 Java开发

如何使用Tika解析阿拉伯语pdf

我已经用solr安装了tika,并且对于阿拉伯语pdf来说运行良好,是否有任何教程可以做到这一点,我看到了与此类似的问题,并且解决方案包括ICU4J.jar,但我不知道现在不是什么意思 解决方案 ICU4J可以在此处下载: http://site.icu-project.org/download ..
发布时间:2020-09-04 23:10:45 其他开发

SOLR-Tika-存储文件的二进制版本

我正在使用集成在SOLR中的Tika来对文档建立索引,并允许在所述文档中进行搜索.这工作非常顺利(现在,我的设置与SOLR附带的示例完全相同),并且确实可以索引和搜索文档.除了为文档建立索引之外,我还希望将二进制版本存储在SOLR中,这样当搜索返回结果时,我可以返回完整的PDF/Word/etc.下载文件.这可能吗? 解决方案 不是. Solr是全文搜索引擎,不提供任何开箱即用的实现来存 ..
发布时间:2020-09-04 23:09:40 其他开发

无法从cgi运行Java命令

我具有在Linux上使用tika读取文档文件的功能: def read_doc(doc_path): output_path=doc_path+'.txt' java_path='/home/jdk1.7.0_17/jre/bin/' environ = os.environ.copy() environ['JAVA_HOME'] =java_path ..
发布时间:2020-09-04 23:08:31 Java开发

在Linux上将MSword转换为XML/HTML

我需要将MSWord文件转换为XML或HTML,同时保留文件(主要是表)的结构.我碰巧发现了tika,它在从MSword文件(和任何文件)中提取文本方面非常强大,如下所示: curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text ,然后我可以从选项中进行选择,以将输出保存到html/X ..
发布时间:2020-09-04 23:08:28 Java开发