Nutch 1.x 中被拒绝的 URL 列表 [英] Rejected URL List in Nutch 1.x

查看:53
本文介绍了Nutch 1.x 中被拒绝的 URL 列表的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试从 Nutch 1.x 版本中的 seed.txt 获取所有被拒绝 URL 的列表.

I am trying to get a list of all the rejected URLs from seed.txt in Nutch 1.x version.

使用 nutch injection 命令,我可以知道被拒绝的 URL 的数量,但是有没有办法获得被拒绝的 URL 的完整列表?

Using the nutch inject command, I can get to know the number of URLs being rejected, but is there a way to get the complete list of URLs rejected?

推荐答案

您可以使用以下命令检查 URL 列表:

You can check a list of URLs with the command:

cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin

被拒绝的 URL 在一行的开头用 - 标记.当然,您必须使用与注入命令相同的 URL 过滤器配置来运行过滤器检查器.

Rejected URLs are marked by - at the beginning of a line. Of course, you have to run the filterchecker with the same URL filter configuration as the inject command.

注意:这是使用 Nutch 1.14 的命令,之前的版本需要参数 -allCombined 而不是 -stdin.

Note: that's the command using Nutch 1.14, prior versions require the argument -allCombined instead of -stdin.

这篇关于Nutch 1.x 中被拒绝的 URL 列表的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆