网页爬虫 - scrapy 只能用计算机一个核心，怎么让四核计算机同时用？

查看：237 发布时间：2017/9/6 6:58:10 网页爬虫 scrapy

本文介绍了网页爬虫 - scrapy 只能用计算机一个核心，怎么让四核计算机同时用？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题

发现scrapy的cpu利用率一般都是25%左右，加上python线程机制，考虑scrapy只使用了25%的cpu

现在想，如何提高scrapy效率，充分发挥一台电脑的资源，让整台电脑的四个核心都来执行scrapy

翻了资料发现可能两种方法（未必对）：
（1）通过multiprocessing这个东西。但是不知道具体怎么实现
（2）把队列分割，在本台计算机重新启动一个scrapy程序

请教这两种方法靠谱吗？如果靠谱具体怎么实现

解决方案

1、跑满100%不代表效率高，scrapy多线程的，耗时的也是IO，所以瓶颈并不一定在cpu上
2、如果非要多进程，可以多启动几个，一般可以启动不同的项目抓不同网站，抓一个网站的话就得在程序里做个处理，分分工

这篇关于网页爬虫 - scrapy 只能用计算机一个核心，怎么让四核计算机同时用？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文