AWS雅典娜-合并小镶木地板文件还是离开它们? [英] AWS Athena - merge small parquet files or leave them?

查看:26
本文介绍了AWS雅典娜-合并小镶木地板文件还是离开它们?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有很多通过AWS Glue读取到雅典娜的小镶木地板文件。我知道小拼图文件(每个35K左右,取决于日志输出它们的方式)并不理想,但一旦它们被读取到数据目录中,它还重要吗?

换句话说,在加载到Athena之前,我是否应该完成将所有小镶木地板文件合并为更理想大小的文件的练习?

推荐答案

即使在数据目录中注册了小文件,您也要继续为它们付出代价。当您基于许多小文件查询一个表时,Athena必须更加努力地收集和流传输它需要扫描的所有必要数据,以便回答您的查询。尽管您最终扫描的数据量可能与之相当,但对较大块的文件执行此操作会减少查询引擎的开销(PRESTO)。

参考:https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html-请注意,当您有许多小文件时,它如何提到S3限制也可能会咬您

此外,在拼图文件的情况下,文件可能有一个索引,查询引擎可以使用该索引跳过扫描文件,或跳到特定文件中的正确位置。我认为这样的索引在许多小文件上的有效性会降低。

通过CTAS语句将较小的文件转换为较大的文件非常容易,我建议您这样做。根据我的经验,我经常看到查询对我的批处理文件执行得更快。

这篇关于AWS雅典娜-合并小镶木地板文件还是离开它们?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆