Scrapy教程

Scrapy - 概述

← 上一节下一节 →

Scrapy是一个用Python编写的快速，开源的网络爬行框架，用于在基于XPath的选择器的帮助下从网页中提取数据.

Scrapy是第一个于2008年6月26日根据BSD发布，2015年6月发布里程碑1.0.

为什么使用Scrapy？

构建和扩展大型爬网项目更容易.
它有一个名为Selectors的内置机制，用于从网站中提取数据.
它以异步方式处理请求并且速度很快.
它使用自动限制机制自动调整爬行速度.
确保开发人员可访问性.

Scrapy的功能

Scrapy是一个开源的免费网络抓取框架.
Scrapy以JSON，CSV和XML等格式生成Feed导出.
Scrapy内置支持从源中选择和提取数据通过XPath或CSS表达式.
基于抓取工具的Scrapy，允许自动从网页中提取数据.

优点

Scrapy易于扩展，快速且功能强大.
这是一个跨平台的应用程序框架(Windows，Linux，Mac OS和BSD).
Scrapy请求被异步调度和处理.
Scrapy附带内置服务，名为 Scrapyd ，允许上传项目使用JSON Web服务控制蜘蛛.
虽然该网站没有用于原始数据访问的API，但可以废弃任何网站.

缺点

Scrapy仅适用于Python 2.7 . +
不同操作系统的安装不同.

← 上一节下一节 →

相关菜鸟教程