nutch - IT屋-程序员软件开发技术分享社区

我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?

我们公司有数以千计的 PDF 文档.我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页，人们可以输入单词并执行基本和/或查询，然后向他们显示所有匹配 PDF 的文档链接. 解决方案 Lucene 系列中的所有项目都不能原生处理 PDF，但是您可以使用一些实用程序以及编写自己的编写好的示例. Lucene 几乎可以 ..

发布时间：2022-01-15 13:22:26 lucene solr nutch 其他开发

在 Solr 中使用 Nutch 爬虫

我可以将 Apache Nutch 爬虫与 Solr Index 服务器集成吗? 编辑: 我们的一位开发人员从这些帖子中提出了一个解决方案运行 Nutch 和 Solr 运行 Nutch 和 Solr 的更新回答是的解决方案如果您愿意升级到 nutch 1.0，您可以使用 Lucid Imagination 的这篇文章中描述的 solrindex: ..

发布时间：2021-12-30 08:54:41 lucene solr nutch 其他开发

如何使用 nutch 解析 html 并将特定标签索引到 solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索；如您所知，我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签确实，我想在此页面中向 solr(某物)添加 ..

发布时间：2021-11-28 21:45:27 solr nutch apache-tika 其他开发

Apache Nutch REST API

我正在尝试通过 rest api 启动爬网.爬行从注入 url 开始.使用 chrome 开发者工具“Advanced Rest Client"，我正在尝试构建这个 POST 有效负载，但我得到的响应是 400 Bad Request. POST - http://localhost:8081/job/create 有效载荷 {"crawl-id":"crawl-01","类型":" ..

发布时间：2021-11-15 04:12:51 api rest web-crawler nutch 其他开发

如何使用nutch和索引特定标签解析html到solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索；如您所知，我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签确实，我想在此页面中向 solr(某物)添加 ..

发布时间：2021-11-14 23:44:41 solr nutch apache-tika 其他开发

使用 Nutch 重新抓取 URL 仅用于更新的站点

我使用 Nutch 2.1 抓取了一个 URL，然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案你根本做不到.您需要重新抓取页面以控制它是否已更新.因此，根据您的需要，对页面/域进行优先级排序并在一段时间内重新抓取它们.为此，您需要一个作业调度程序，例如 Quartz. 您需要编写一个比较页面的函数.但是，Nutch 最初将页面保存为索引文件 ..

发布时间：2021-11-11 06:03:34 apache solr lucene nutch web-crawler 服务器开发

Nutch 2.2.1 在 Injector 工作后不会继续

我正在学习 nutch 并尝试按照这个教程进行攀爬.我正在开发一个带有 bash shell 的 ubuntu 机器.但是当我运行脚本时，执行发生了，但之后没有任何反应， InjectorJob:从2014-03-23 09:28:50开始InjectorJob: 注入 urlDir: urls/seed.txt 我已经等了几个小时，我尝试使用 sudo 运行相同的程序.出现同样的问题.我 ..

发布时间：2021-11-11 05:51:08 java apache nutch Java开发

Apache Nutch:FetcherJob 在 Gora 深处抛出 NoSuchElementException

我开箱即用地运行 Apache Nutch 2.3.1，它使用 Gora 0.6.1.我已按照此处的说明操作:http://wiki.apache.org/nutch/RunNutchInEclipse 它在 InjectorJob 中运行良好. 现在我正在运行 FetcherJob，Gora 使用 MemStore 作为数据存储.我有 gora.properties 包含 gora ..

发布时间：2021-11-11 05:49:46 java apache nutch gora Java开发

如何在 Intellij Idea 上打开 Ant 项目(Nutch Source)?

我想打开 Nutch 2.1 源文件 (http://www.eu.apache.org/dist/nutch/2.1/) 在 Intellij IDEA.以下是如何在 Eclipse 中打开它的说明:http://wiki.apache.org/nutch/RunNutchInEclipse 但是我不熟悉 Ant(我使用 Maven)并且当我打开该源文件时，Intellij 不知道许多类. ..

发布时间：2021-11-11 02:41:39 ant intellij-idea nutch 其他开发

Nutch 任何人都可以解释 readdb stats 中的状态名称指示什么

Nutch 谁能解释一下 readdb stats 中状态名称的含义. 1.db_redir_perm2.db_unfetched3.db_fetched4.db_Gone5.db_redir_temp6.db_duplicate7.db_notmodified. 解决方案 Nutch 将 URL 的所有元数据信息存储在 CrawlDatum 对象.它存储在 /crawldb/*/p ..

发布时间：2021-06-11 18:43:51 nutch 其他开发

Nutch 1.2 - 为什么 nutch 不使用查询字符串抓取 url?

我是 Nutch 的新手，不太确定这里发生了什么.我运行 nutch 并抓取我的网站，但它似乎忽略了包含查询字符串的 URL.我已经注释掉了 crawl-urlfilter.txt 页面中的过滤器，现在看起来像这样: # 跳过带有这些字符的网址#-[]#skip url 以斜线分隔的重复 3 次以上的段#-.*(/[^/]+)/[^/]+\1/[^/]+\1/ 所以，我认为我已经有效地删除了任 ..

发布时间：2021-06-11 18:43:48 nutch 其他开发

Nutch - 删除段

我有一个包含 4 个段的 Nutch 爬网，这些段使用 bin/nutch solrindex 命令完全索引.现在我所有的存储空间都用完了，所以我可以删除 4 个段并只保留 crawldb 并从我离开的地方继续爬行吗? 由于所有段都被合并并索引到 Solr，我认为删除段没有问题，还是我错了? 解决方案感谢 Nutch 邮件列表上的帮助，我发现我可以删除那些段. ..

发布时间：2021-06-11 18:43:46 solr web-crawler nutch 其他开发

Nutch - 不爬行，说“停止在深度=1 - 没有更多的 URL 可以获取"；

我已经很久没有尝试使用 Nutch 爬行了，但它似乎无法运行.我正在尝试为网站构建 SOLR 搜索，并使用 Nutch 在 Solr 中进行爬网和索引. 最初存在一些权限问题，但现在已修复.我试图抓取的 URL 是 http://172.30.162.202:10200/，它不可公开访问.它是一个可以从 Solr 服务器访问的内部 URL.我尝试使用 Lynx 浏览它. 下面是 Nut ..

发布时间：2021-06-11 18:43:42 nutch web-crawler 其他开发

Nutch 1.0 中的拼写检查器

谁能告诉我如何在 nutch 1.0 中实现拼写检查器? 解决方案谁能告诉我怎么用contrib \ web2 目录中可用的拼写检查查询插件(甚至其他插件也是如此)?它类似于启用 nutch-plugins 吗? 首次访问 google(`nutch 拼写检查器')并位于 apache nutch 项目页面... ..

发布时间：2021-06-11 18:43:39 java nutch Java开发

支持在开始爬行之前与目标站点进行交互的网络爬行工具

我正在寻找一种能够使用 Ajax 处理页面并能够在开始抓取站点之前与目标站点执行某些用户交互(例如，单击某些菜单项、填写某些表单等)的爬虫...).我尝试了 webdriver/selenium(它们是真正的网络抓取工具)，现在我想知道是否有任何可用的爬虫支持在开始爬取之前模拟某些用户交互?(在 Java 或 Python 或 Ruby 中...) 谢谢 ps - nutch 能做到吗 ..

发布时间：2021-06-11 18:43:37 web-crawler nutch 其他开发

纳奇 2.2.1 &HBase - 我可以在 nutch-site.xml 中创建一个新属性吗

我想使用 Nutch 2.2.1 开发一个主题网络机器人.我想用一些主题关键字创建一个新属性，如下所示: html.metatitle.keys电影、演员、公司解决方案有两种不同的解决方案可以解决您的问题: 实现自定义的HtmlParseFilter 插件来过滤页面根据您想要的关键字.有关 Nutc ..

发布时间：2021-06-11 18:43:34 web web-crawler nutch 其他开发

Nutch 不会抓取多个站点

我正在尝试使用 Nutch 抓取多个网站.我的 seed.txt 看起来像这样: http://1.a.b/http://2.a.b/ 我的 regex-urlfilter.txt 看起来像这样: # 跳过文件:ftp: 和 mailto: urls-^(文件|ftp|mailto):# 跳过我们还不能解析的图像和其他后缀# 要获得更广泛的覆盖范围，请使用 urlfilter-suffix ..

发布时间：2021-06-11 18:43:31 nutch web-crawler multiple-sites 其他开发

如何使用 apache nutch 2.2.1 绕过 robots.txt

谁能告诉我 apache nutch 在爬行时是否有任何方法可以忽略或绕过 robots.txt.我正在使用 nutch 2.2.1.我发现“RobotRulesParser.java"(完整路径:-src/plugin/lib-http/src/java/org/apache/nutch/protocol/http/api/RobotRulesParser.java) 负责读取和解析robots ..

发布时间：2021-06-11 18:43:27 java nutch robots.txt web-crawler Java开发

NutchTutorial 中的 nutch 1.16 爬网示例在 org.apache.commons.cli.OptionBuilder (Windows 10) 上返回 NoSuchMethodError

我一直在尝试使用来自 https 的代码示例和说明运行 Nutch 1.16 爬虫://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial 但无论如何，我似乎在启动实际爬行时卡住了.我在 Windows 10 机器上通过 Cygwin64 运行它，使用二进制安装(尽管我尝试编译一个具有相同结果的).最初，Nutch 会抛出一个 Unsat ..

发布时间：2021-06-11 18:43:25 apache nutch 服务器开发

nutch 1.16 在文件系统抓取中跳过文件:/目录样式的链接

我正在尝试使用从主要教程 (https://cwiki.apache.org/confluence/display/nutch/FAQ#FAQ-HowdoIindexmylocalfilesystem?)以及其他来源.Nutch 完全能够抓取网页没有问题，但由于某种原因它拒绝扫描本地目录. 我的配置文件如下: regex-urlfilter: #每个非注释、非空行包含一个正则表达式# ..

发布时间：2021-06-11 18:43:22 regex web-crawler nutch 其他开发

nutch相关内容