Scrapy - Feed导出

描述

Feed导出是一种存储从网站上抓取的数据的方法,即生成"导出文件".

序列化格式

使用多个序列化格式和存储后端,Feed Exports使用Item exporters并生成带有已删除项目的Feed.

下表显示了支持的格式 :

Sr.No格式&说明
1

JSON

FEED_FORMAT是 json

使用的导出器是类scrapy.exporters.JsonItemExporter

2

JSON行

FEED_FROMAT是 jsonlines

使用的出口商是类scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT CSV

使用的出口商是类scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT是 xml

使用的导出器是类scrapy.exporters.XmlItemExporter

使用 FEED_EXPORTERS 设置,支持的格式也可以扩展 :

Sr.No格式&说明
1

Pickle

FEED_FORMAT是pickel

使用的导出器是 class scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT是元帅

使用的导出器是类scrapy.exporters.MarshalItemExporter

存储后端

存储后端定义使用URI存储Feed的位置.

下表显示了支持的存储后端 :

Sr.No存储后端&说明
1

本地文件系统

URI方案是文件,它用于存储提要.

2

FTP

URI方案是 ftp ,它用于存储供稿.

3

S3

URI方案是 S3 ,并且Feed存储在Amazon S3上.外部库 botocore 或 boto 是必需的.

4

标准输出

URI方案是 stdout 并且Feed存储到标准输出.

存储URI参数

以下是存储URL的参数,在创建Feed时会被替换;

  • %(time)s:此参数被时间戳替换.

  • %(name)s:此参数被蜘蛛名称替换.

设置

下表显示了可以配置Feed导出的设置 :

Sr.No设置&说明
1

FEED_URI

这是用于启用Feed导出的导出Feed的URI.

2

FEED_FORMAT

这是用于Feed的序列化格式.

3

FEED_EXPORT_FIELDS

它用于定义需要导出的字段.

4

FEED_STORE_EMPTY

它定义是否导出没有项目的Feed.

5

FEED_STORAGES

这是一个包含额外Feed存储后端的字典.

6

FEED_STORAGES_BASE

这是一个内置Feed存储后端的字典.

7

FEED_EXPORTERS

这是一个包含其他Feed导出器的字典.

8

FEED_EXPORTERS_BASE

这是一本字典内置饲料出口商.