Scrapy - Feed导出

Feed导出是一种存储从网站上抓取的数据的方法，即生成"导出文件".

序列化格式

使用多个序列化格式和存储后端，Feed Exports使用Item exporters并生成带有已删除项目的Feed.

下表显示了支持的格式 :

Sr.No	格式&说明
1	JSON FEED_FORMAT是 json 使用的导出器是类scrapy.exporters.JsonItemExporter
2	JSON行 FEED_FROMAT是 jsonlines 使用的出口商是类scrapy.exporters.JsonLinesItemExporter
3	CSV FEED_FORMAT CSV 使用的出口商是类scrapy.exporters.CsvItemExporter
4	XML FEED_FORMAT是 xml 使用的导出器是类scrapy.exporters.XmlItemExporter

使用 FEED_EXPORTERS 设置，支持的格式也可以扩展 :

Sr.No	格式&说明
1	Pickle FEED_FORMAT是pickel 使用的导出器是 class scrapy.exporters.PickleItemExporter
2	Marshal FEED_FORMAT是元帅使用的导出器是类scrapy.exporters.MarshalItemExporter

Sr.No

格式&说明

Pickle

FEED_FORMAT是pickel

使用的导出器是 class scrapy.exporters.PickleItemExporter

Marshal

FEED_FORMAT是元帅

使用的导出器是类scrapy.exporters.MarshalItemExporter

存储后端定义使用URI存储Feed的位置.

下表显示了支持的存储后端 :

Sr.No	存储后端&说明
1	本地文件系统 URI方案是文件，它用于存储提要.
2	FTP URI方案是 ftp ，它用于存储供稿.
3	S3 URI方案是 S3 ，并且Feed存储在Amazon S3上.外部库 botocore 或 boto 是必需的.
4	标准输出 URI方案是 stdout 并且Feed存储到标准输出.

以下是存储URL的参数，在创建Feed时会被替换;

下表显示了可以配置Feed导出的设置 :

Sr.No	设置&说明
1	FEED_URI 这是用于启用Feed导出的导出Feed的URI.
2	FEED_FORMAT 这是用于Feed的序列化格式.
3	FEED_EXPORT_FIELDS 它用于定义需要导出的字段.
4	FEED_STORE_EMPTY 它定义是否导出没有项目的Feed.
5	FEED_STORAGES 这是一个包含额外Feed存储后端的字典.
6	FEED_STORAGES_BASE 这是一个内置Feed存储后端的字典.
7	FEED_EXPORTERS 这是一个包含其他Feed导出器的字典.
8	FEED_EXPORTERS_BASE 这是一本字典内置饲料出口商.