python - 爬我们学院的网站出现404notfound

查看:179
本文介绍了python - 爬我们学院的网站出现404notfound的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

# -*- encoding: utf8 -*-

import urllib
import urllib2
import re

page = 1
url = u'http://math.xmu.edu.cn/' + str(page)
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
headers = { 'User-Agent' : user_agent}
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile(r'<article class="home_news_l">.*?<p>(.*?)</p>.*?<p>(.*?)</p></article>',re.S)
    items = re.findall(pattern,content)
    for item in items:
        print item.encode('utf-8')

except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

这个网站我可以打开,但是用爬虫就是404,我也有head..不知道问题出在哪了,谢谢你

解决方案


你构造出来的url是http://math.xmu.edu.cn/1,这个url本来就不存在,好好检查一下先

这篇关于python - 爬我们学院的网站出现404notfound的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆