apache-tika - IT屋-程序员软件开发技术分享社区

java.lang.IllegalArgumentException: 协议 = http 主机 = null

对于这个链接 http://bits.blogs.nytimes.com/2014/09/02/uber-banned-across-germany-by-frankfurt-court/?partner=rss&emc=rss 此代码不起作用，但如果我放另一个例如:https://www.google.com一切正常: URL url = new URL("http://bits.blogs ..

发布时间：2021-11-28 21:45:42 java url apache-tika Java开发

如何使用 nutch 解析 html 并将特定标签索引到 solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索；如您所知，我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签确实，我想在此页面中向 solr(某物)添加 ..

发布时间：2021-11-28 21:45:27 solr nutch apache-tika 其他开发

将 tika 与 python 一起使用，运行时错误:无法启动 tika 服务器

我正在尝试使用 tika 包来解析文件.Tika 安装成功，tika-server-1.18.jar 在 cmd 中运行 Code Java -jar tika-server-1.18.jar 我在 Jupyter 中的代码是: 导入tika来自 tika 导入解析器解析 = parser.from_file('') 但是，我收到以下错误: 2018-07-25 10:20:13, ..

发布时间：2021-11-28 21:45:09 python parsing apache-tika Python

从 Zip 文件中的文件中读取内容

我正在尝试创建一个简单的 java 程序，该程序从 zip 文件中的文件中读取和提取内容.Zip 文件包含 3 个文件(txt、pdf、docx).我需要阅读所有这些文件的内容，为此我正在使用 Apache Tika. 有人能帮我实现这个功能吗?到目前为止我已经尝试过这个但没有成功代码片段公共类 SampleZipExtract {公共静态无效主(字符串 [] args){列表t ..

发布时间：2021-11-25 16:57:37 java zip extract apache-tika Java开发

如何使用 Tika 解析阿拉伯语 pdf

我已经用 solr 安装了 tika ，它对阿拉伯语 pdf 运行良好，是否有任何教程可以实现这一点，我见过类似的问题，解决方案是包含 ICU4J.jar ，但我不知道不是现在是什么意思解决方案 ICU4J 可以在这里下载:http://site.icu-project.org/download ..

发布时间：2021-11-17 01:28:41 solr arabic apache-tika 其他开发

解析/转换旧的 Word 文档?(msword2/5)

我们得到了一些非常旧的 .doc 文件.通常我们使用 tika(我们的应用程序通常会提取文本，然后进行 PDF/A 转换)，但显然当前不支持 msword2(和 msword5).我发现的唯一替代方案是 Libreoffice 命令行.还有什么吗? 搜索这个非常困难，因为其他人似乎都在寻找 1995 年的“旧" 而不是 ..

发布时间：2021-11-14 23:48:59 pdf ms-word libreoffice apache-tika 其他开发

Heroku 上的 Tika 服务器

我尝试在 heroku 上运行 Tika 服务器.Tika 构建和启动没有任何问题.但是 90 秒后 Heroku 终止了我的进程. 这是在我的 Procfile 中: web: java $JAVA_OPTS -jar tika-server/target/tika-server-1.13-SNAPSHOT.jar --port=$PORT 这是我得到的错误: 2016-04-19T ..

发布时间：2021-11-14 23:48:56 java heroku timeout apache-tika Java开发

Gradle，Tika - 排除一些制作“fat jar"的依赖包；太胖

我正在开发一个应用程序，该应用程序可在少数知名文档格式(.docx、.odt、.txt 等)上创建 Lucence 索引. Tika 是提取文本的理想选择，但它似乎是使我的胖罐气球达到 62 MB 的罪魁祸首. 为了制作胖罐子，我在 build.gradle 中这样做: buildscript {存储库 { jcenter() }依赖关系 {//fatjar类路径 'com.gith ..

发布时间：2021-11-14 23:48:52 java gradle executable-jar apache-tika build-dependencies Java开发

将文档拆分为段落

我有大量的 PDF 文档.我使用 Apache Tika 将它们转换为文本，现在我想将它们拆分为段落.我无法使用正则表达式，因为文本转换使段落之间的区别变得不可能:有些文档在段落之间具有 \n 的标准方式，但有些文档具有 \n> 在同一段落中的行之间，然后在段落之间使用双 \n(使用 Tika 转换为 HTML 而不是文本无济于事). Python 的 NLTK 书籍有一种使用机器学习拆分句 ..

发布时间：2021-11-14 23:48:49 python regex machine-learning apache-tika AI人工智能

Tika in Action 书籍示例 Lucene StandardAnalyzer 不起作用

首先，当谈到 Tika 和 Lucene 时，我完全是个菜鸟.我正在通过 Tika in Action 一书来尝试示例.在第 5 章中给出了这个例子: 包 tikatest01;导入 java.io.File;导入 org.apache.tika.Tika;导入 org.apache.lucene.document.Document;导入 org.apache.lucene.document.F ..

发布时间：2021-11-14 23:48:45 java lucene apache-tika Java开发

如何使用 Apache Tika 解析八位字节流文件?

我在 Azure Blob 存储中存储了所有不同类型的文件，文件有 txt、doc、pdf 等.但是，所有文件都存储为“八位字节流"，当我打开文件以使用 Tika 从中提取文本时，Tika 无法检测到字符编码.我怎样才能解决这个问题? FileSystem fs = FileSystem.get(new Configuration());路径 pt = 新路径(Configs.BLOBSTORA ..

发布时间：2021-11-14 23:48:42 java azure-blob-storage apache-tika Java开发

使用外部 Jar 时出现 Eclipse Juno EE NoClassDefFoundError

我通过文件夹 -> 属性 -> 构建路径 -> 库 -> 添加外部 jar 在我的 eclipse 动态 web 项目中添加了一个外部 jar. 代码在编译时运行良好. 打包servlet；导入 java.io.IOException;导入 java.io.PrintWriter;导入 javax.servlet.ServletException;导入 javax.servlet.anno ..

发布时间：2021-11-14 23:48:39 apache jakarta-ee eclipse-juno apache-tika 服务器开发

Solr 能否保留在其结果中提供给它的 HTML 文档的格式?

如何维护 HTML 文档的原始格式Solr 给出的结果? 我正在尝试在我公司的一个网站中提供搜索功能，该网站拥有数百万个文档，并且所有文档的格式都不相似，因此很难单独设置每个文档的格式. 我在 apache 站点使用 Solr 4.1 nightly builds，该站点内置了对 solr 的支持-细胞和蒂卡.即我不需要单独配置它们. solr-cell 或 tika 是否在任何 ..

发布时间：2021-11-14 23:48:36 solr solrj apache-tika solr-cell 其他开发

Apache Solr - 索引 ZIP 文件

我的网络应用程序是一个电子邮件服务.它将电子邮件消息存储在 MySQL 数据库中，电子邮件附件在磁盘上. 数据库类似于: ----------------------------------------------------------------------|身份证 |发件人 |接收器|主题 |身体|attach_dir |附件 |--------------------------- ..

发布时间：2021-11-14 23:48:33 java solr lucene extract apache-tika Java开发

是否可以使用 Tika 检测证书文件类型?

我想使用 Apache tika 检测给定文件的文件类型.不仅与文件名，而且还应该检查基于内容并返回文件类型.我使用了“tika.detect(stream)"它适用于文本、图像、XML 文件.现在我想使用 Tika 检测证书文件.但是基于内容的文件类型检测不适用于证书文件(X509、.pem、.der 等) 提前致谢解决方案对许多主题的支持才刚刚添加到 Apache Tika！ ..

发布时间：2021-11-14 23:48:30 apache-tika 其他开发

在 Netbeans 8.0.2 和 Java 8 中使用 Apache Tika 1.9 会产生巨大的可执行文件.怎么做才能缩小尺寸?

我在使用外部库方面运气不佳，所以我只是在任何使用实用程序的项目中包含了实用程序的源代码. 现在我有一个需要 Apache Tika 的项目，所以我必须有一个类似这样的库设置: 但是要从 Netbeans 外部运行程序，我显然(根据 dist 文件夹中的 readme.txt)需要压缩 .jar 和 lib 文件夹，解压缩该压缩文件，提取内容，然后从提取到的任何位置运行. 但 Ti ..

发布时间：2021-11-14 23:48:27 java netbeans apache-tika Java开发

Solr 索引 PDF 文档并将它们发布到远程服务器

嗨，当谈到 Solr 时，我是一个天真的用户.请指导我解决以下障碍. 1) Solr 索引 PDF 文档尝试过的解决方案我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件.现在我正在尝试编写一个 Java 代码来将文档索引到 Solr. 2) 将它们发布到远程服务器我需要将文档或索引发布到中央远程服务器.可以为此使用 curl ..

发布时间：2021-11-14 23:48:24 curl indexing solr apache-tika pdftotext 其他开发

使用 ManifoldCF 提取文件内容

我正在尝试将 ManifoldCF 与文件系统连接器一起使用. 它就像一个魅力:通过实施 Tika 内容提取器，我从我的文档中获得了所有预期的元数据. 可是……如何配置 ManifoldCF 以获得与此命令等效的命令:java -jar tika-app-1.9.jar --text我的意思是，我想获取文件的内容并将其推送到我的输出连接中.怎么可能? 解决方案您必须在管道中设 ..

发布时间：2021-11-14 23:48:21 apache-tika manifoldcf 其他开发

哪里可以买到 Apache Tika jar?

全部: 我尝试使用 Apache Tika 构建应用程序来解析 PDF，但我想知道在哪里可以获得像 tika-core/target/tika-core-.jar 和 tika-parsers/target/tika-parsers 这样的库-.jar 我只找到 tika-app 但没有像上面这样的 jar. http://tika.apache.org/1.11/getting ..

发布时间：2021-11-14 23:48:14 apache-tika 其他开发

解析二进制文件时出错...(主要是 PDF)

我正在尝试通过对二进制文件使用 ByteArrayInputStream 来使用 Apache Tika 解析 pdf 文件......并且开始出现一些 pdf 文件的错误，而对于一些它解析得很好.. 早些时候我能够解析相同的pdf 文件使用 Tika，但现在当我尝试使用 ByteArrayInputStream 时，我开始收到错误..我认为 ByteArray 存在一些问题这是我得到的错误.. ..

发布时间：2021-11-14 23:48:11 java parsing apache-tika pdf-parsing Java开发

apache-tika相关内容