apache-tika相关内容

如何使用 nutch 解析 html 并将特定标签索引到 solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加 ..
发布时间:2021-11-28 21:45:27 其他开发

从 Zip 文件中的文件中读取内容

我正在尝试创建一个简单的 java 程序,该程序从 zip 文件中的文件中读取和提取内容.Zip 文件包含 3 个文件(txt、pdf、docx).我需要阅读所有这些文件的内容,为此我正在使用 Apache Tika. 有人能帮我实现这个功能吗?到目前为止我已经尝试过这个但没有成功 代码片段 公共类 SampleZipExtract {公共静态无效主(字符串 [] args){列表t ..
发布时间:2021-11-25 16:57:37 Java开发

如何使用 Tika 解析阿拉伯语 pdf

我已经用 solr 安装了 tika ,它对阿拉伯语 pdf 运行良好,是否有任何教程可以实现这一点,我见过类似的问题,解决方案是包含 ICU4J.jar ,但我不知道不是现在是什么意思 解决方案 ICU4J 可以在这里下载:http://site.icu-project.org/download ..
发布时间:2021-11-17 01:28:41 其他开发

解析/转换旧的 Word 文档?(msword2/5)

我们得到了一些非常旧的 .doc 文件.通常我们使用 tika(我们的应用程序通常会提取文本,然后进行 PDF/A 转换),但显然 当前 不支持 msword2(和 msword5).我发现的唯一替代方案是 Libreoffice 命令行.还有什么吗? 搜索这个非常困难,因为其他人似乎都在寻找 1995 年的“旧" 而不是 ..
发布时间:2021-11-14 23:48:59 其他开发

Heroku 上的 Tika 服务器

我尝试在 heroku 上运行 Tika 服务器.Tika 构建和启动没有任何问题.但是 90 秒后 Heroku 终止了我的进程. 这是在我的 Procfile 中: web: java $JAVA_OPTS -jar tika-server/target/tika-server-1.13-SNAPSHOT.jar --port=$PORT 这是我得到的错误: 2016-04-19T ..
发布时间:2021-11-14 23:48:56 Java开发

Gradle,Tika - 排除一些制作“fat jar"的依赖包;太胖

我正在开发一个应用程序,该应用程序可在少数知名文档格式(.docx、.odt、.txt 等)上创建 Lucence 索引. Tika 是提取文本的理想选择,但它似乎是使我的胖罐气球达到 62 MB 的罪魁祸首. 为了制作胖罐子,我在 build.gradle 中这样做: buildscript {存储库 { jcenter() }依赖关系 {//fatjar类路径 'com.gith ..
发布时间:2021-11-14 23:48:52 Java开发

将文档拆分为段落

我有大量的 PDF 文档.我使用 Apache Tika 将它们转换为文本,现在我想将它们拆分为段落.我无法使用正则表达式,因为文本转换使段落之间的区别变得不可能:有些文档在段落之间具有 \n 的标准方式,但有些文档具有 \n> 在同一段落中的行之间,然后在段落之间使用双 \n(使用 Tika 转换为 HTML 而不是文本无济于事). Python 的 NLTK 书籍有一种使用机器学习拆分句 ..
发布时间:2021-11-14 23:48:49 AI人工智能

如何使用 Apache Tika 解析八位字节流文件?

我在 Azure Blob 存储中存储了所有不同类型的文件,文件有 txt、doc、pdf 等.但是,所有文件都存储为“八位字节流",当我打开文件以使用 Tika 从中提取文本时,Tika 无法检测到字符编码.我怎样才能解决这个问题? FileSystem fs = FileSystem.get(new Configuration());路径 pt = 新路径(Configs.BLOBSTORA ..
发布时间:2021-11-14 23:48:42 Java开发

Solr 能否保留在其结果中提供给它的 HTML 文档的格式?

如何维护 HTML 文档的原始格式Solr 给出的结果? 我正在尝试在我公司的一个网站中提供搜索功能,该网站拥有数百万个文档,并且所有文档的格式都不相似,因此很难单独设置每个文档的格式. 我在 apache 站点使用 Solr 4.1 nightly builds,该站点内置了对 solr 的支持-细胞和蒂卡.即我不需要单独配置它们. solr-cell 或 tika 是否在任何 ..
发布时间:2021-11-14 23:48:36 其他开发

Apache Solr - 索引 ZIP 文件

我的网络应用程序是一个电子邮件服务.它将电子邮件消息存储在 MySQL 数据库中,电子邮件附件在磁盘上. 数据库类似于: ----------------------------------------------------------------------|身份证 |发件人 |接收器|主题 |身体|attach_dir |附件 |--------------------------- ..
发布时间:2021-11-14 23:48:33 Java开发

是否可以使用 Tika 检测证书文件类型?

我想使用 Apache tika 检测给定文件的文件类型.不仅与文件名,而且还应该检查基于内容并返回文件类型.我使用了“tika.detect(stream)"它适用于文本、图像、XML 文件.现在我想使用 Tika 检测证书文件.但是基于内容的文件类型检测不适用于证书文件(X509、.pem、.der 等) 提前致谢 解决方案 对许多主题的支持才刚刚添加到 Apache Tika! ..
发布时间:2021-11-14 23:48:30 其他开发

在 Netbeans 8.0.2 和 Java 8 中使用 Apache Tika 1.9 会产生巨大的可执行文件.怎么做才能缩小尺寸?

我在使用外部库方面运气不佳,所以我只是在任何使用实用程序的项目中包含了实用程序的源代码. 现在我有一个需要 Apache Tika 的项目,所以我必须有一个类似这样的库设置: 但是要从 Netbeans 外部运行程序,我显然(根据 dist 文件夹中的 readme.txt)需要压缩 .jar 和 lib 文件夹,解压缩该压缩文件,提取内容,然后从提取到的任何位置运行. 但 Ti ..
发布时间:2021-11-14 23:48:27 Java开发

Solr 索引 PDF 文档并将它们发布到远程服务器

嗨,当谈到 Solr 时,我是一个天真的用户.请指导我解决以下障碍. 1) Solr 索引 PDF 文档 尝试过的解决方案 我使用 tika-app 0.9.jar 将输入 PDF 文件中的内容提取到文本文件.现在我正在尝试编写一个 Java 代码来将文档索引到 Solr. 2) 将它们发布到远程服务器 我需要将文档或索引发布到中央远程服务器.可以为此使用 curl ..
发布时间:2021-11-14 23:48:24 其他开发

使用 ManifoldCF 提取文件内容

我正在尝试将 ManifoldCF 与文件系统连接器一起使用. 它就像一个魅力:通过实施 Tika 内容提取器,我从我的文档中获得了所有预期的元数据. 可是……如何配置 ManifoldCF 以获得与此命令等效的命令:java -jar tika-app-1.9.jar --text我的意思是,我想获取文件的内容并将其推送到我的输出连接中.怎么可能? 解决方案 您必须在管道中设 ..
发布时间:2021-11-14 23:48:21 其他开发

哪里可以买到 Apache Tika jar?

全部: 我尝试使用 Apache Tika 构建应用程序来解析 PDF,但我想知道在哪里可以获得像 tika-core/target/tika-core-.jar 和 tika-parsers/target/tika-parsers 这样的库-.jar 我只找到 tika-app 但没有像上面这样的 jar. http://tika.apache.org/1.11/getting ..
发布时间:2021-11-14 23:48:14 其他开发

解析二进制文件时出错...(主要是 PDF)

我正在尝试通过对二进制文件使用 ByteArrayInputStream 来使用 Apache Tika 解析 pdf 文件......并且开始出现一些 pdf 文件的错误,而对于一些它解析得很好.. 早些时候我能够解析相同的pdf 文件使用 Tika,但现在当我尝试使用 ByteArrayInputStream 时,我开始收到错误..我认为 ByteArray 存在一些问题这是我得到的错误.. ..
发布时间:2021-11-14 23:48:11 Java开发