apache-tika 第7页 - IT屋-程序员软件开发技术分享社区

如何使用python从文件夹中的pdf中提取文本并将其保存在dataframe中?

我有很多文件夹，每个文件夹中都有几个pdf文件(也有其他文件类型，例如.xlsx或.doc).我的目标是为每个文件夹提取pdf文本并创建一个数据框，其中每个记录都是“文件夹名称".并且每一列以字符串形式表示该文件夹中每个pdf文件的文本内容. 我设法用 tika 包(下面的代码)从一个pdf文件中提取了文本.但是无法循环访问该文件夹或其他文件夹中的其他pdf，从而构造出结构化的数据框. ..

发布时间：2021-04-08 20:33:25 python dataframe pdf apache-tika pdf-conversion Python

为什么Tika Facade选择EmptyParser?

按照 ..

发布时间：2021-04-08 20:33:21 java apache-tika Java开发

Apache Tika Server-请求标头参数?

Apache Tika Server提供了Rest API来从文档中提取文本.还可以设置特定的请求标头参数，例如 X-Tika-PDFOcrStrategy .例如: $ curl -T test/Dokument01.pdf http://localhost:9998/tika --header"X-Tika-PDFOcrStrategy:ocr_only" 从关于tika的许多不同文档 ..

发布时间：2021-04-08 20:33:18 apache-tika tika-server 其他开发

如何使用Apache TIka从文件中提取图像?

我有一个pdf(或其他任何类型的文件，例如.doc，.ppt等)，其中包含文本和图像.如何使用Tika从这些文件中提取图像? 还可以使用Tess4j或任何其他lib在提取的图像上运行OCR吗? 这就是我叫Tika的方式: AutoDetectParser解析器= new AutoDetectParser();BodyContentHandler处理程序= new BodyConte ..

发布时间：2021-04-08 20:33:15 apache-tika 其他开发

Solr ExtractingRequestHandler提取"rect"消息.在链接中

我正在利用solr ExtractingRequestHandler提取HTML内容并为其编制索引.我的问题涉及它产生的提取的链接部分.返回的提取内容在HTML源代码中不存在的地方插入了“矩形". 我的solrconfig单元配置如下: ..

发布时间：2021-04-08 20:33:12 solr apache-tika solr-cell 其他开发

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆pdf文件，有些是可搜索的常规pdf文件，有些是一些无法搜索的文档的扫描版本.我想提取每个pdf的内容.要提取常规pdf的内容，请使用 Apache Tika ，并从我正在使用的不可搜索的内容中提取内容 tesseract-ocr .但是，我需要区分哪个pdf是标准pdf，哪个不是.有什么办法吗? 解决方案这将为您提供帮助，公共静态布尔isSearchablePdf(Stri ..

发布时间：2021-04-08 20:33:08 java pdf ocr tesseract apache-tika Java开发

TikaException:无法关闭临时资源-如何解决?

我正在Windows 10 jre 1.8.0_181上使用Apache Tika，并且已经使用Maven导入了Tika，并具有以下依赖性: junit junit 3.8.1 test ..

发布时间：2021-04-07 20:49:39 java apache maven tesseract apache-tika Java开发

如何使用Apache Tika解析八位字节流文件?

我已将所有不同类型的文件存储在Azure Blob存储上，文件是txt，doc，pdf等.但是，所有文件都存储为“八位字节流"，当我打开文件以使用Tika从其中提取文本时，Tika无法检测到字符编码.我该如何解决这个问题? FileSystem fs = FileSystem.get(new Configuration()); Path pt = new Path(C ..

发布时间：2020-09-04 23:12:07 java azure-storage-blobs apache-tika Java开发

哪里可以得到Apache Tika罐子?

全部: 我尝试使用Apache Tika来构建应用程序以解析PDF，但是我想知道从哪里可以得到tika-core/target/tika-core- .jar和tika-parsers/target/tika-parsers之类的库- .jar 我只找到tika-app，但上面没有这样的罐子. http://tika.apache.org/1.11/gettingstarted. ..

发布时间：2020-09-04 23:12:02 apache-tika 其他开发

java.lang.NoClassDefFoundError:无法初始化类org.apache.pdfbox.pdmodel.font.PDFont

我在wildfly模块中使用Apache Tika(tika-app 1.17). 当我开始提取PDF时，它总是会引发错误: java.lang.NoClassDefFoundError:无法初始化类 org.apache.pdfbox.pdmodel.font.PDFont 对于其他文件扩展名，它可以正常工作. 我已经尝试了apache-tika module.xml到PDFbox中 ..

发布时间：2020-09-04 23:10:57 pdfbox apache-tika wildfly-10 其他开发

在Netbeans 8.0.2和Java 8中使用Apache Tika 1.9会产生巨大的可执行文件.如何减小尺寸?

我对外部库没有太多运气，所以我只是在使用实用程序的任何项目中都包含了实用程序源. 现在我有一个需要Apache Tika的项目，所以我必须具有类似以下的库设置: 但是要从Netbeans外部运行程序，我显然(按dist文件夹中的readme.txt)需要压缩.jar和lib文件夹，解压缩该压缩文件，提取内容，然后从提取到任何地方. 但是Tika库为45MB. 我只使用了ti ..

发布时间：2020-09-04 23:10:51 java netbeans apache-tika Java开发

提卡1.13 RuntimeException

我最近更新了现有的tika项目，以使用1.13而不是1.10.我所做的唯一一件事就是将依赖性版本从1.10更改为1.13.该项目已成功构建.但是，每当我尝试运行该应用程序时，都会出现此异常: java.lang.RuntimeException: Unable to parse the default media type registry at org.apache.tika.mi ..

发布时间：2020-09-04 23:10:48 java exception apache-tika Java开发

如何使用Tika解析阿拉伯语pdf

我已经用solr安装了tika，并且对于阿拉伯语pdf来说运行良好，是否有任何教程可以做到这一点，我看到了与此类似的问题，并且解决方案包括ICU4J.jar，但我不知道现在不是什么意思解决方案 ICU4J可以在此处下载: http://site.icu-project.org/download ..

发布时间：2020-09-04 23:10:45 solr arabic apache-tika 其他开发

使用TikaEntityProcessor时如何在Solr中存储文件路径

我正在使用DIH索引本地文件系统.但是没有存储文件路径，大小和最后修改的字段.在我定义的schema.xml中: ..

发布时间：2020-09-04 23:09:42 solr apache-tika dataimporthandler 其他开发

SOLR-Tika-存储文件的二进制版本

我正在使用集成在SOLR中的Tika来对文档建立索引，并允许在所述文档中进行搜索.这工作非常顺利(现在，我的设置与SOLR附带的示例完全相同)，并且确实可以索引和搜索文档.除了为文档建立索引之外，我还希望将二进制版本存储在SOLR中，这样当搜索返回结果时，我可以返回完整的PDF/Word/etc.下载文件.这可能吗? 解决方案不是. Solr是全文搜索引擎，不提供任何开箱即用的实现来存 ..

发布时间：2020-09-04 23:09:40 solr apache-tika 其他开发

无法从cgi运行Java命令

我具有在Linux上使用tika读取文档文件的功能: def read_doc(doc_path): output_path=doc_path+'.txt' java_path='/home/jdk1.7.0_17/jre/bin/' environ = os.environ.copy() environ['JAVA_HOME'] =java_path ..

发布时间：2020-09-04 23:08:31 java python cgi apache-tika Java开发

在Linux上将MSword转换为XML/HTML

我需要将MSWord文件转换为XML或HTML，同时保留文件(主要是表)的结构.我碰巧发现了tika，它在从MSword文件(和任何文件)中提取文本方面非常强大，如下所示: curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text ，然后我可以从选项中进行选择，以将输出保存到html/X ..

发布时间：2020-09-04 23:08:28 java python linux perl apache-tika Java开发

从字节数组获取文件名

例如，可以使用Apache Tika从字节数组中提取模仿类型. 是否可以从字节数组中获取文件名. 解决方案否.您可以从内容数据本身猜测一个模仿类型，但是文件名不在其中. ..

发布时间：2020-09-04 23:08:26 java bytearray filenames apache-tika Java开发

Apache Tika ArchiveStreamFactory.detect错误

我正在将Java与apache tika 1.18结合使用，以将某些文件转换为TXT. 当我尝试使用AutoDetectParser()时，出现错误: [ERROR]在错误处理期间发生错误，请放弃！ org.apache.commons.compress.archivers.ArchiveStreamFactory.detect(Ljava/io/InputStream;)Ljava/lan ..

发布时间：2020-09-04 23:07:14 java websphere-liberty apache-tika Java开发

Solr的TikaEntityProcessor无法正常工作

我正在尝试让Solr索引数据库，其中一列是我要索引的PDF文档的文件名.我的配置如下: ..

发布时间：2020-09-04 23:07:09 solr apache-tika solr-cell 其他开发

apache-tika相关内容