网页爬虫 - pyspider是否提供了增量爬取相关接口

查看:177
本文介绍了网页爬虫 - pyspider是否提供了增量爬取相关接口的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

pyspider可以通过设定age来实现周期爬取,不过很多爬取目标是会不定期地更新内容的,比如论坛帖子。帖子的更新时间是不一定的,如果我想要实现增量爬取的话,是否可以使用pyspider提供的现成接口,还是必须由自己实现这一功能?在文档中没有找到相关的接口说明。。

如果只通过设定age值来更新数据(超过age值的任务进行重爬和更新),感觉对于很多并未更新的帖子来说是不必要的。是否有更加好的方法可以解决这个需求呢?

解决方案

pyspider 设计就是为了解决增量爬取问题的
你可以通过 age 刷新最近更新列表,用最后回复时间设置 itag,当有变化时自动重新抓取。

这篇关于网页爬虫 - pyspider是否提供了增量爬取相关接口的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆