有没有已知的网络抓取工具列表? [英] Is there a list of known web crawlers?

查看:174
本文介绍了有没有已知的网络抓取工具列表?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在为网络服务器上的某些文件准确下载数字。我看看用户代理,有些显然是机器人或网页抓取工具,但是很多我不确定,他们可能是也可能不是网络抓取工具,并且导致许多下载,所以我很重要。 p>

有没有一些知名的网页抓取工具,有一些文档,如用户代理,IP,行为等?



我对官方的不感兴趣,像谷歌,雅虎或微软。这些一般表现良好,自我认同。

解决方案

我正在使用 http://www.user-agents.org/ 通常作为参考,希望这有助于您。



您还可以尝试 http://www.robotstxt.org/db.html http://www.botsvsbrowsers.com


I'm trying to get accurate download numbers for some files on a web server. I look at the user agents and some are clearly bots or web crawlers, but many for many I'm not sure, they may or may not be a web crawler and they are causing many downloads so it's important for me to know.

Is there somewhere a list of know web crawlers with some documentation like user agent, IPs, behavior, etc?

I'm not interested in the official ones, like Google's, Yahoo's, or Microsoft's. Those are generally well behaved and self-indentified.

解决方案

I'm using http://www.user-agents.org/ usually as reference, hope this helps you out.

You can also try http://www.robotstxt.org/db.html or http://www.botsvsbrowsers.com.

这篇关于有没有已知的网络抓取工具列表?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆