Nutch 1.x 中被拒绝的 URL 列表 [英] Rejected URL List in Nutch 1.x
问题描述
我正在尝试从 Nutch 1.x 版本中的 seed.txt
获取所有被拒绝 URL 的列表.
I am trying to get a list of all the rejected URLs from seed.txt
in Nutch 1.x version.
使用 nutch injection
命令,我可以知道被拒绝的 URL 的数量,但是有没有办法获得被拒绝的 URL 的完整列表?
Using the nutch inject
command, I can get to know the number of URLs being rejected, but is there a way to get the complete list of URLs rejected?
推荐答案
您可以使用以下命令检查 URL 列表:
You can check a list of URLs with the command:
cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin
被拒绝的 URL 在一行的开头用 -
标记.当然,您必须使用与注入命令相同的 URL 过滤器配置来运行过滤器检查器.
Rejected URLs are marked by -
at the beginning of a line. Of course, you have to run the filterchecker with the same URL filter configuration as the inject command.
注意:这是使用 Nutch 1.14 的命令,之前的版本需要参数 -allCombined
而不是 -stdin
.
Note: that's the command using Nutch 1.14, prior versions require the argument -allCombined
instead of -stdin
.
这篇关于Nutch 1.x 中被拒绝的 URL 列表的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!