Scrapy - 概述

Scrapy是一个用Python编写的快速,开源的网络爬行框架,用于在基于XPath的选择器的帮助下从网页中提取数据.

Scrapy是第一个于2008年6月26日根据BSD发布,2015年6月发布里程碑1.0.

为什么使用Scrapy?

  • 构建和扩展大型爬网项目更容易.

  • 它有一个名为Selectors的内置机制,用于从网站中提取数据.

  • 它以异步方式处理请求并且速度很快.

  • 它使用自动限制机制自动调整爬行速度.

  • 确保开发人员可访问性.

Scrapy的功能

  • Scrapy是一个开源的免费网络抓取框架.

  • Scrapy以JSON,CSV和XML等格式生成Feed导出.

  • Scrapy内置支持从源中选择和提取数据通过XPath或CSS表达式.

  • 基于抓取工具的Scrapy,允许自动从网页中提取数据.

优点

  • Scrapy易于扩展,快速且功能强大.

  • 这是一个跨平台的应用程序框架(Windows,Linux,Mac OS和BSD).

  • Scrapy请求被异步调度和处理.

  • Scrapy附带内置服务,名为 Scrapyd ,允许上传项目使用JSON Web服务控制蜘蛛.

  • 虽然该网站没有用于原始数据访问的API,但可以废弃任何网站.

缺点

  • Scrapy仅适用于Python 2.7 . +

  • 不同操作系统的安装不同.