python - scrapy 如何组合2个不同页面的数据,一并存储

查看:145
本文介绍了python - scrapy 如何组合2个不同页面的数据,一并存储的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

1 比如有博客列表页 a ,获取文章列表
2 博客内容详情页 b , 获取文章正文
3 如何依次获取到文章 + 内容 到数据库 ?
4 当前问题主要是不知道如何组合2个不同页面的数据

这个问题已被关闭,原因:问题已解决 - 问题已解决,且对他人无借鉴意义

解决方案

可以用request.meta来存储额外的信息, 比如


def parse_x1(self, response):
    extra = {}
    ...
    req = scrapy.Request(url2)
    req.callback = self.parse_x2
    ...
    req.meta['extra'] = extra 
    yield req
 
def parse_x2(self, response):
    item = {}
    extra = response.meta['extra']
    item.update(extra)
    ...
    
    yield item

这篇关于python - scrapy 如何组合2个不同页面的数据,一并存储的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆