Apache的Nutch的2.1不同批次ID(空) [英] Apache Nutch 2.1 different batch id (null)
问题描述
我爬在Apache 2.1 Nutch的几个网站。
I crawl few sites with Apache Nutch 2.1.
在抓取我看到很多网页以下消息:结果
恩。跳过<一个href=\"http://www.domainname.com/news/subcategory/111111/index.html\">http://www.domainname.com/news/subcategory/111111/index.html;不同批次ID(空)。
While crawling I see the following message on lot of pages:
ex. Skipping http://www.domainname.com/news/subcategory/111111/index.html; different batch id (null).
是什么原因导致这个错误?结果
我怎样才能解决这个问题,因为不同批次ID(空)的页面不存储在数据库中。
What causes this error ?
How can I resolve this problem, because the pages with different batch id (null) are not stored in database.
这是我爬到该网站是基于Drupal的,但我已经尝试过许多其他非Drupal的网站。
The site that I crawled is based on drupal, but i have tried on many others non drupal sites.
推荐答案
我认为,该消息不是问题。 BATCH_ID没有分配给所有的url。所以,如果BATCH_ID为空,则跳过URL。生成URL时,BATCH_ID assined的网址。
I think, the message is not problem. batch_id not assigned to all of url. So, if batch_id is null , skip url. Generate url when batch_id assined for url.
这篇关于Apache的Nutch的2.1不同批次ID(空)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!