python - 爬虫的ip被封禁,使用http高匿代理仍无法访问,但https的代理就可以访问?

查看:229
本文介绍了python - 爬虫的ip被封禁,使用http高匿代理仍无法访问,但https的代理就可以访问?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

用python写了个爬虫爬取糗事百科:http://www.qiushibaike.com/hi...的历史帖子,爬的挺慢,几秒一个页面,一个多小时后还是被封了ip,于是打算用代理接着爬。
代理地址从这里获取的:https://github.com/qiyeboy/IP...,我一开始用的是http协议的高匿代理,但糗百似乎知道我的原ip,还是不让我访问(ip是可用的,已经验证),我换了https协议的代理之后就可以继续爬了。
使用的是urllib2.install_opener(opener)。
为什么会这样,是代理的问题吗?还是糗百的反爬虫已经足够牛逼了?我知道https比http更安全,但为什么http代理连隐藏原ip都不行?有没有什么办法能够隐蔽地用http代理进行爬虫吗?
本人菜鸡,对原理不是很清楚,希望大神能够指点。

解决方案

不如用你所谓的高匿代理访问一下http://httpbin.org/headers,看看高匿是不是真的匿名呢

这篇关于python - 爬虫的ip被封禁,使用http高匿代理仍无法访问,但https的代理就可以访问?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆