Apache的Nutch的2.1不同批次ID(空) [英] Apache Nutch 2.1 different batch id (null)

查看:172
本文介绍了Apache的Nutch的2.1不同批次ID(空)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我爬在Apache 2.1 Nutch的几个网站。

I crawl few sites with Apache Nutch 2.1.

在抓取我看到很多网页以下消息:结果
恩。跳过<一个href=\"http://www.domainname.com/news/subcategory/111111/index.html\">http://www.domainname.com/news/subcategory/111111/index.html;不同批次ID(空)。

While crawling I see the following message on lot of pages:
ex. Skipping http://www.domainname.com/news/subcategory/111111/index.html; different batch id (null).

是什么原因导致这个错误?结果
我怎样才能解决这个问题,因为不同批次ID(空)的页面不存储在数据库中。

What causes this error ?
How can I resolve this problem, because the pages with different batch id (null) are not stored in database.

这是我爬到该网站是基于Drupal的,但我已经尝试过许多其他非Drupal的网站。

The site that I crawled is based on drupal, but i have tried on many others non drupal sites.

推荐答案

我认为,该消息不是问题。 BATCH_ID没有分配给所有的url。所以,如果BATCH_ID为空,则跳过URL。生成URL时,BATCH_ID assined的网址。

I think, the message is not problem. batch_id not assigned to all of url. So, if batch_id is null , skip url. Generate url when batch_id assined for url.

这篇关于Apache的Nutch的2.1不同批次ID(空)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆