使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件 [英] Merge multiple parquet files to single parquet file in AWS S3 using AWS Glue ETL python spark (pyspark)

查看：172 发布时间：2021/4/13 18:35:13 amazon-s3 pyspark parquet aws-glue

本文介绍了使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我每15分钟运行一次AWS Glue ETL作业，每次在S3中生成1个实木复合地板文件.

I have AWS Glue ETL Job running every 15 mins that generates 1 parquet file in S3 each time.

我需要创建另一个作业以在每个小时结束时运行，以使用AWS Glue ETL pyspark代码将S3中的所有4个实木复合地板文件合并为1个单个实木复合地板文件.

I need to create another job to run end of each hour to merge all the 4 parquet file in S3 to 1 single parquet file using the AWS Glue ETL pyspark code.

有人尝试过吗?建议和最佳实践?

Any one have tried it? suggestions and best practies?

提前谢谢！

使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件 [英] Merge multiple parquet files to single parquet file in AWS S3 using AWS Glue ETL python spark (pyspark)

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件 [英] Merge multiple parquet files to single parquet file in AWS S3 using AWS Glue ETL python spark (pyspark)

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭