将拼图文件加载到RedShift中 [英] Load Parquet files into Redshift

查看:0
本文介绍了将拼图文件加载到RedShift中的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在S3上有一堆拼图文件,我想以最优的方式将它们加载到红移中。

每个文件被拆分成多个块……将数据从S3加载到RedShift的最佳方式是什么?

另外,如何在RedShift中创建目标表定义?有没有一种方法可以从Parquet中推断出模式并编程创建表?我相信有一种使用红移光谱的方法可以做到这一点,但我想知道这是否可以在脚本中完成。

感谢您的帮助!

我正在考虑所有AWS工具(如Glue、Lambda等)以最优的方式实现这一点(在性能、安全性和成本方面)。

推荐答案

Amazon RedShiftCOPY command可以使用参数:

本地加载拼图文件
FORMAT AS PARQUET

参见:Amazon Redshift Can Now COPY from Parquet and ORC File Formats

该表必须预先创建;不能自动创建。

另请注意COPY from Columnar Data Formats - Amazon Redshift

复制按列在列数据文件中出现的顺序将值插入到目标表的列中。目标表中的列数和数据文件中的列数必须匹配。

这篇关于将拼图文件加载到RedShift中的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆