网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

查看：80 发布时间：2017/9/5 23:33:18 网页爬虫 python 爬虫图片博客园

本文介绍了网页爬虫 - 博客园博客中的图片怎么用python爬取下来？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

写了一小段代码，爬取博客园博客中的图片，这段代码对部分链接有效，还有一部分链接一爬就报错，这是什么原因呢？

#coding=utf-8

import urllib
import re
from lxml import etree

#解析地址
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#获取地址并建树
url = "http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html"
html = getHtml(url)
html = html.decode("utf-8")
tree = etree.HTML(html)

#保存图片至本地
reg = r'src="(.*?)" alt'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
x = 0
for imgurl in imglist:
    urllib.urlretrieve(imgurl, '%s.jpg' % x)
    x += 1

如图，可以正确爬取图片

若把url换为

url = "http://www.cnblogs.com/baronzhang/p/6861258.html"

则立马报错

求解决，谢谢！

解决方案

错误提示已经很明显了，你去看下网页源代码，匹配到的第一张图片是一个GIF格式的，并且还是相对路径，所以你是下载不到的，故提示IOerror，就算你下载到了，因为你指定了格式为JPG，你也打不开。因此你需要做的就是判断和筛选

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

看下我增加的地方，当然这只是最简单的判断，但可以保证你第二个程序不会报错，也是给你一个思路！

这篇关于网页爬虫 - 博客园博客中的图片怎么用python爬取下来？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录关闭

网页爬虫 - 博客园博客中的图片怎么用python爬取下来？

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭