Scrapy - Scraped Data

描述

存储已删除数据的最佳方法是使用Feed导出,这样可确保使用多种序列化格式正确存储数据. JSON,JSON行,CSV,XML是序列化格式中支持的格式.数据可以使用以下命令存储 :

scrapy crawl dmoz -o data.json

此命令将创建一个 data.json 文件,其中包含JSON中的抓取数据.这种技术适用于少量数据.如果必须处理大量数据,那么我们可以使用Item Pipeline.就像data.json文件一样,在 tutorial/pipelines.py 中创建项目时会设置一个保留文件.