mysql - Python深度爬取一个网站

查看：120 发布时间：2017/9/6 11:38:09 ubuntu mysql firefox 搜索引擎 python

本文介绍了mysql - Python深度爬取一个网站的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

毕业设计项目需要从coursera,edx等大型MOOC网站爬取大量公开课课程信息，尝试着爬取了coursera的课程信息，但是每次都要重新在python代码中写入新的url，如：coursera.org/computer/database和coursera.org/computer/algorithm才可以分别爬去database和algorithm的信息，可是coursera中有10大类，平均每类课程又分有6-8个小分类，也就是我需要该大概80次链接，感觉虽然已经比手动录入快很多了，但是自动化程度仍旧带来了一个效率低下的问题，请问有什么方法可以深度爬取一个网站的信息，让人工操作的的工序少一些呢？了解过深度搜索和广度搜索的算法，但是不知道在这里应该如何使用呢？P.S.在这里我是用的python中beautifulsoup4的package进行的html代码解析从而实现crawler。
码渣跪求，大神们能配合代码或者伪码来指导一下就最好啦！thx！

解决方案

爬的时候把这些url加入到一个url数组中，依次爬取url数组中的url就可以了，可以把这个理解为广度优先搜索

这篇关于mysql - Python深度爬取一个网站的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

mysql - Python深度爬取一个网站

问题描述

相关文章

数据库最新文章

热门教程

热门工具

登录关闭

mysql - Python深度爬取一个网站

问题描述

相关文章

数据库最新文章

热门教程

热门工具

登录 关闭

登录关闭