nutch相关内容
我们公司有数以千计的 PDF 文档.我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配 PDF 的文档链接. 解决方案 Lucene 系列中的所有项目都不能原生处理 PDF,但是您可以使用一些实用程序以及编写自己的编写好的示例. Lucene 几乎可以
..
我可以将 Apache Nutch 爬虫与 Solr Index 服务器集成吗? 编辑: 我们的一位开发人员从这些帖子中提出了一个解决方案 运行 Nutch 和 Solr 运行 Nutch 和 Solr 的更新 回答 是的 解决方案 如果您愿意升级到 nutch 1.0,您可以使用 Lucid Imagination 的这篇文章中描述的 solrindex:
..
我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加
..
我正在尝试通过 rest api 启动爬网.爬行从注入 url 开始.使用 chrome 开发者工具“Advanced Rest Client",我正在尝试构建这个 POST 有效负载,但我得到的响应是 400 Bad Request. POST - http://localhost:8081/job/create 有效载荷 {"crawl-id":"crawl-01","类型":"
..
我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中.(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或其他)像这样: 我的特定标签 确实,我想在此页面中向 solr(某物)添加
..
我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案 你根本做不到.您需要重新抓取页面以控制它是否已更新.因此,根据您的需要,对页面/域进行优先级排序并在一段时间内重新抓取它们.为此,您需要一个作业调度程序,例如 Quartz. 您需要编写一个比较页面的函数.但是,Nutch 最初将页面保存为索引文件
..
我正在学习 nutch 并尝试按照这个 教程 进行攀爬.我正在开发一个带有 bash shell 的 ubuntu 机器.但是当我运行脚本时,执行发生了,但之后没有任何反应, InjectorJob:从2014-03-23 09:28:50开始InjectorJob: 注入 urlDir: urls/seed.txt 我已经等了几个小时,我尝试使用 sudo 运行相同的程序.出现同样的问题.我
..
我开箱即用地运行 Apache Nutch 2.3.1,它使用 Gora 0.6.1.我已按照此处的说明操作:http://wiki.apache.org/nutch/RunNutchInEclipse 它在 InjectorJob 中运行良好. 现在我正在运行 FetcherJob,Gora 使用 MemStore 作为数据存储.我有 gora.properties 包含 gora
..
我想打开 Nutch 2.1 源文件 (http://www.eu.apache.org/dist/nutch/2.1/) 在 Intellij IDEA.以下是如何在 Eclipse 中打开它的说明:http://wiki.apache.org/nutch/RunNutchInEclipse 但是我不熟悉 Ant(我使用 Maven)并且当我打开该源文件时,Intellij 不知道许多类.
..
Nutch 谁能解释一下 readdb stats 中状态名称的含义. 1.db_redir_perm2.db_unfetched3.db_fetched4.db_Gone5.db_redir_temp6.db_duplicate7.db_notmodified. 解决方案 Nutch 将 URL 的所有元数据信息存储在 CrawlDatum 对象.它存储在 /crawldb/*/p
..
我是 Nutch 的新手,不太确定这里发生了什么.我运行 nutch 并抓取我的网站,但它似乎忽略了包含查询字符串的 URL.我已经注释掉了 crawl-urlfilter.txt 页面中的过滤器,现在看起来像这样: # 跳过带有这些字符的网址#-[]#skip url 以斜线分隔的重复 3 次以上的段#-.*(/[^/]+)/[^/]+\1/[^/]+\1/ 所以,我认为我已经有效地删除了任
..
我有一个包含 4 个段的 Nutch 爬网,这些段使用 bin/nutch solrindex 命令完全索引.现在我所有的存储空间都用完了,所以我可以删除 4 个段并只保留 crawldb 并从我离开的地方继续爬行吗? 由于所有段都被合并并索引到 Solr,我认为删除段没有问题,还是我错了? 解决方案 感谢 Nutch 邮件列表上的帮助,我发现我可以删除那些段.
..
我已经很久没有尝试使用 Nutch 爬行了,但它似乎无法运行.我正在尝试为网站构建 SOLR 搜索,并使用 Nutch 在 Solr 中进行爬网和索引. 最初存在一些权限问题,但现在已修复.我试图抓取的 URL 是 http://172.30.162.202:10200/,它不可公开访问.它是一个可以从 Solr 服务器访问的内部 URL.我尝试使用 Lynx 浏览它. 下面是 Nut
..
谁能告诉我如何在 nutch 1.0 中实现拼写检查器? 解决方案 谁能告诉我怎么用contrib \ web2 目录中可用的拼写检查查询插件(甚至其他插件也是如此)?它类似于启用 nutch-plugins 吗? 首次访问 google(`nutch 拼写检查器')并位于 apache nutch 项目页面...
..
我正在寻找一种能够使用 Ajax 处理页面并能够在开始抓取站点之前与目标站点执行某些用户交互(例如,单击某些菜单项、填写某些表单等)的爬虫...).我尝试了 webdriver/selenium(它们是真正的网络抓取工具),现在我想知道是否有任何可用的爬虫支持在开始爬取之前模拟某些用户交互?(在 Java 或 Python 或 Ruby 中...) 谢谢 ps - nutch 能做到吗
..
我想使用 Nutch 2.2.1 开发一个主题网络机器人.我想用一些主题关键字创建一个新属性,如下所示: html.metatitle.keys电影、演员、公司 解决方案 有两种不同的解决方案可以解决您的问题: 实现自定义的HtmlParseFilter 插件来过滤页面根据您想要的关键字.有关 Nutc
..
我正在尝试使用 Nutch 抓取多个网站.我的 seed.txt 看起来像这样: http://1.a.b/http://2.a.b/ 我的 regex-urlfilter.txt 看起来像这样: # 跳过文件:ftp: 和 mailto: urls-^(文件|ftp|mailto):# 跳过我们还不能解析的图像和其他后缀# 要获得更广泛的覆盖范围,请使用 urlfilter-suffix
..
谁能告诉我 apache nutch 在爬行时是否有任何方法可以忽略或绕过 robots.txt.我正在使用 nutch 2.2.1.我发现“RobotRulesParser.java"(完整路径:-src/plugin/lib-http/src/java/org/apache/nutch/protocol/http/api/RobotRulesParser.java) 负责读取和解析robots
..
我一直在尝试使用来自 https 的代码示例和说明运行 Nutch 1.16 爬虫://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial 但无论如何,我似乎在启动实际爬行时卡住了.我在 Windows 10 机器上通过 Cygwin64 运行它,使用二进制安装(尽管我尝试编译一个具有相同结果的).最初,Nutch 会抛出一个 Unsat
..
我正在尝试使用从主要教程 (https://cwiki.apache.org/confluence/display/nutch/FAQ#FAQ-HowdoIindexmylocalfilesystem?)以及其他来源.Nutch 完全能够抓取网页没有问题,但由于某种原因它拒绝扫描本地目录. 我的配置文件如下: regex-urlfilter: #每个非注释、非空行包含一个正则表达式#
..