网页爬虫 - scrapy 只能用计算机一个核心,怎么让四核计算机同时用?

查看:237
本文介绍了网页爬虫 - scrapy 只能用计算机一个核心,怎么让四核计算机同时用?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

发现scrapy的cpu利用率一般都是25%左右,加上python线程机制,考虑scrapy只使用了25%的cpu

现在想,如何提高scrapy效率,充分发挥一台电脑的资源,让整台电脑的四个核心都来执行scrapy

翻了资料发现可能两种方法(未必对):
(1)通过multiprocessing这个东西。但是不知道具体怎么实现
(2)把队列分割,在本台计算机重新启动一个scrapy程序

请教这两种方法靠谱吗?如果靠谱具体怎么实现

解决方案

1、跑满100%不代表效率高,scrapy多线程的,耗时的也是IO,所以瓶颈并不一定在cpu上
2、如果非要多进程,可以多启动几个,一般可以启动不同的项目抓不同网站,抓一个网站的话就得在程序里做个处理,分分工

这篇关于网页爬虫 - scrapy 只能用计算机一个核心,怎么让四核计算机同时用?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆