网页爬虫 - python3爬虫正则表达式卡顿

查看：171 发布时间：2017/9/6 6:35:56 卡死网页爬虫 python

本文介绍了网页爬虫 - python3爬虫正则表达式卡顿的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

python3初学者，练习使用爬虫抓取网页，随机找了个小说网站抓取，抓取html源代码没有问题，但是使用正则表达式，出现抓取数据后直接卡死，请问如何调试？

import urllib.request
import re

url = 'http://book.669977.net/xiuxiankuangtu/chapter.html'

response = urllib.request.urlopen(url)
html = response.read().decode('gbk')

url_number = re.findall('href="(/\w{5,20}/\d{3,8})',html)
print(url_number)

解决方案

print(url_number[:10])
改成这样，只显示前10个数据。

这是 idle 的bug，要显示太多字符时，会卡死。
它似乎将所有的字符都当成python代码，试图格式化显示它们。

这篇关于网页爬虫 - python3爬虫正则表达式卡顿的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

网页爬虫 - python3爬虫正则表达式卡顿

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录关闭

网页爬虫 - python3爬虫正则表达式卡顿

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭