首页
其他开发
使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？

使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？

查看：1214 发布时间：2017/9/6 9:30:56

本文介绍了使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？

比如：

class demoSpider(RedisSpider):
    name = "demospider"

    redis_key = 'demospider:start_urls'
    start_urls = ['http://www.example.com']

    def start_requests(self):
        pages=[]
        for i in range(1,10):
            url='http://www.example.com/?page=%s'%i
            page=scrapy.Request(url)
            pages.append(page)
        return pages

解决方案

不需要而且写了start_urls也没有用

http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests

The default implementation uses make_requests_from_url() to generate Requests for each url in start_urls

你重写start_requests也就不会从start_urls generate Requests了

看看源码

scrapy/spiders/__init__.py:68行

def start_requests(self):
    for url in self.start_urls:
        yield self.make_requests_from_url(url)

这篇关于使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

登录关闭

扫码关注1秒登录

发送“验证码”获取 | 15天全站免登陆