网页爬虫 - 有很多整站下载工具可以下载下整个站点,怎么设置让别人不能下载?

查看:95
本文介绍了网页爬虫 - 有很多整站下载工具可以下载下整个站点,怎么设置让别人不能下载?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

有很多整站下载工具可以下载下整个站点,怎么设置让别人不能下载?他们下载的好像都是静态资源。这个和爬虫有关系吗?

解决方案

没有办法防止,除非你的网站不是公开访问。
只要浏览器能打开,也就能抓取,或者被搜索引擎爬虫抓取,或者被采集器采集。
虽然不能完全防止,但是可以限制,比如UserAgent白名单、限制同一IP的访问频率等。
抓取网站下载到的当然是静态资源,如果能下载后端的动态资源就很危险了,但是不必担心,只要你的后端解析器(比如php-fpmHHVM)起作用,抓站工具抓到的,只是被解析之后的结果。

这篇关于网页爬虫 - 有很多整站下载工具可以下载下整个站点,怎么设置让别人不能下载?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆