Feed导出是一种存储从网站上抓取的数据的方法,即生成"导出文件".
使用多个序列化格式和存储后端,Feed Exports使用Item exporters并生成带有已删除项目的Feed.
下表显示了支持的格式 :
Sr.No | 格式&说明 |
---|---|
1 | JSON FEED_FORMAT是 json 使用的导出器是类scrapy.exporters.JsonItemExporter |
2 | JSON行 FEED_FROMAT是 jsonlines 使用的出口商是类scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT CSV 使用的出口商是类scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT是 xml 使用的导出器是类scrapy.exporters.XmlItemExporter |
使用 FEED_EXPORTERS 设置,支持的格式也可以扩展 :
Sr.No | 格式&说明 |
---|---|
1 | Pickle FEED_FORMAT是pickel 使用的导出器是 class scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT是元帅 使用的导出器是类scrapy.exporters.MarshalItemExporter |
存储后端定义使用URI存储Feed的位置.
下表显示了支持的存储后端 :
Sr.No | 存储后端&说明 |
---|---|
1 | 本地文件系统 URI方案是文件,它用于存储提要. |
2 | FTP URI方案是 ftp ,它用于存储供稿. |
3 | S3 URI方案是 S3 ,并且Feed存储在Amazon S3上.外部库 botocore 或 boto 是必需的. |
4 | 标准输出 URI方案是 stdout 并且Feed存储到标准输出. |
以下是存储URL的参数,在创建Feed时会被替换;
%(time)s:此参数被时间戳替换.
%(name)s:此参数被蜘蛛名称替换.
下表显示了可以配置Feed导出的设置 :
Sr.No | 设置&说明 |
---|---|
1 | FEED_URI 这是用于启用Feed导出的导出Feed的URI. |
2 | FEED_FORMAT 这是用于Feed的序列化格式. |
3 | FEED_EXPORT_FIELDS 它用于定义需要导出的字段. |
4 | FEED_STORE_EMPTY 它定义是否导出没有项目的Feed. |
5 | FEED_STORAGES 这是一个包含额外Feed存储后端的字典. |
6 | FEED_STORAGES_BASE 这是一个内置Feed存储后端的字典. |
7 | FEED_EXPORTERS 这是一个包含其他Feed导出器的字典. |
8 | FEED_EXPORTERS_BASE 这是一本字典内置饲料出口商. |