nutch相关内容

我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?

我们公司有数以千计的 PDF 文档.我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配 PDF 的文档链接. 解决方案 Lucene 系列中的所有项目都不能原生处理 PDF,但是您可以使用一些实用程序以及编写自己的编写好的示例. Lucene 几乎可以 ..
发布时间:2022-01-15 13:22:26 其他开发

在 Solr 中使用 Nutch 爬虫

我可以将 Apache Nutch 爬虫与 Solr Index 服务器集成吗? 编辑: 我们的一位开发人员从这些帖子中提出了一个解决方案 运行 Nutch 和 Solr 运行 Nutch 和 Solr 的更新 回答 是的 解决方案 如果您愿意升级到 nutch 1.0,您可以使用 Lucid Imagination 的这篇文章中描述的 solrindex: ..
发布时间:2021-12-30 08:54:41 其他开发

如何使用 nutch 解析 html 并将特定标签索引到 solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加 ..
发布时间:2021-11-28 21:45:27 其他开发

Apache Nutch REST API

我正在尝试通过 rest api 启动爬网.爬行从注入 url 开始.使用 chrome 开发者工具“Advanced Rest Client",我正在尝试构建这个 POST 有效负载,但我得到的响应是 400 Bad Request. POST - http://localhost:8081/job/create 有效载荷 {"crawl-id":"crawl-01","类型":" ..
发布时间:2021-11-15 04:12:51 其他开发

如何使用nutch和索引特定标签解析html到solr?

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加 ..
发布时间:2021-11-14 23:44:41 其他开发

使用 Nutch 重新抓取 URL 仅用于更新的站点

我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案 你根本做不到.您需要重新抓取页面以控制它是否已更新.因此,根据您的需要,对页面/域进行优先级排序并在一段时间内重新抓取它们.为此,您需要一个作业调度程序,例如 Quartz. 您需要编写一个比较页面的函数.但是,Nutch 最初将页面保存为索引文件 ..
发布时间:2021-11-11 06:03:34 服务器开发

Nutch 2.2.1 在 Injector 工作后不会继续

我正在学习 nutch 并尝试按照这个 教程 进行攀爬.我正在开发一个带有 bash shell 的 ubuntu 机器.但是当我运行脚本时,执行发生了,但之后没有任何反应, InjectorJob:从2014-03-23 09:28:50开始InjectorJob: 注入 urlDir: urls/seed.txt 我已经等了几个小时,我尝试使用 sudo 运行相同的程序.出现同样的问题.我 ..
发布时间:2021-11-11 05:51:08 Java开发

Nutch 1.2 - 为什么 nutch 不使用查询字符串抓取 url?

我是 Nutch 的新手,不太确定这里发生了什么.我运行 nutch 并抓取我的网站,但它似乎忽略了包含查询字符串的 URL.我已经注释掉了 crawl-urlfilter.txt 页面中的过滤器,现在看起来像这样: # 跳过带有这些字符的网址#-[]#skip url 以斜线分隔的重复 3 次以上的段#-.*(/[^/]+)/[^/]+\1/[^/]+\1/ 所以,我认为我已经有效地删除了任 ..
发布时间:2021-06-11 18:43:48 其他开发

Nutch - 删除段

我有一个包含 4 个段的 Nutch 爬网,这些段使用 bin/nutch solrindex 命令完全索引.现在我所有的存储空间都用完了,所以我可以删除 4 个段并只保留 crawldb 并从我离开的地方继续爬行吗? 由于所有段都被合并并索引到 Solr,我认为删除段没有问题,还是我错了? 解决方案 感谢 Nutch 邮件列表上的帮助,我发现我可以删除那些段. ..
发布时间:2021-06-11 18:43:46 其他开发

Nutch - 不爬行,说“停止在深度=1 - 没有更多的 URL 可以获取";

我已经很久没有尝试使用 Nutch 爬行了,但它似乎无法运行.我正在尝试为网站构建 SOLR 搜索,并使用 Nutch 在 Solr 中进行爬网和索引. 最初存在一些权限问题,但现在已修复.我试图抓取的 URL 是 http://172.30.162.202:10200/,它不可公开访问.它是一个可以从 Solr 服务器访问的内部 URL.我尝试使用 Lynx 浏览它. 下面是 Nut ..
发布时间:2021-06-11 18:43:42 其他开发

Nutch 1.0 中的拼写检查器

谁能告诉我如何在 nutch 1.0 中实现拼写检查器? 解决方案 谁能告诉我怎么用contrib \ web2 目录中可用的拼写检查查询插件(甚至其他插件也是如此)?它类似于启用 nutch-plugins 吗? 首次访问 google(`nutch 拼写检查器')并位于 apache nutch 项目页面... ..
发布时间:2021-06-11 18:43:39 Java开发

支持在开始爬行之前与目标站点进行交互的网络爬行工具

我正在寻找一种能够使用 Ajax 处理页面并能够在开始抓取站点之前与目标站点执行某些用户交互(例如,单击某些菜单项、填写某些表单等)的爬虫...).我尝试了 webdriver/selenium(它们是真正的网络抓取工具),现在我想知道是否有任何可用的爬虫支持在开始爬取之前模拟某些用户交互?(在 Java 或 Python 或 Ruby 中...) 谢谢 ps - nutch 能做到吗 ..
发布时间:2021-06-11 18:43:37 其他开发

Nutch 不会抓取多个站点

我正在尝试使用 Nutch 抓取多个网站.我的 seed.txt 看起来像这样: http://1.a.b/http://2.a.b/ 我的 regex-urlfilter.txt 看起来像这样: # 跳过文件:ftp: 和 mailto: urls-^(文件|ftp|mailto):# 跳过我们还不能解析的图像和其他后缀# 要获得更广泛的覆盖范围,请使用 urlfilter-suffix ..
发布时间:2021-06-11 18:43:31 其他开发

NutchTutorial 中的 nutch 1.16 爬网示例在 org.apache.commons.cli.OptionBuilder (Windows 10) 上返回 NoSuchMethodError

我一直在尝试使用来自 https 的代码示例和说明运行 Nutch 1.16 爬虫://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial 但无论如何,我似乎在启动实际爬行时卡住了.我在 Windows 10 机器上通过 Cygwin64 运行它,使用二进制安装(尽管我尝试编译一个具有相同结果的).最初,Nutch 会抛出一个 Unsat ..
发布时间:2021-06-11 18:43:25 服务器开发