通过分区控制Impala中的数据局部性 [英] Control data locality in Impala by partitioning

查看:174
本文介绍了通过分区控制Impala中的数据局部性的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

在表创建时已知理想数据位置或布局的情况下,我想避免Impala节点不必要地通过网络从其他节点请求数据.这对于非累加"操作将很有帮助,因为无论如何(例如,百分位数)都需要在同一位置(节点)使用分区中的所有记录.

是否可以告诉Impala,对于任何HDFS副本,分区中的所有数据应始终位于同一节点上?

在Impala-SQL中,我不确定"PARTITIONED BY"子句是否提供此功能.以我的理解,Impala将其分区在HDFS上分成单独的文件,但是HDFS不能保证相关文件的共处位置,也不保证默认情况下会阻塞(而是试图做到相反).

找到了一些有关Impala对HDFS开发的影响的信息,但不清楚这些信息是否已实施或仍在计划中

http://www.slideshare.net/deview/aaron-myers- hdfs-impala (幻灯片23-24)

提前谢谢大家.

解决方案

关于您提到的幻灯片(共置的块副本")-关于HDFS功能(

Found some information about Impala's impact on HDFS development but not clear if these are already implemented or still in plans:

http://www.slideshare.net/deview/aaron-myers-hdfs-impala (slides 23-24)

Thank you in advance for all.

解决方案

About the slides you mention ("Co-located block replicas") - it's about an HDFS feature (HDFS-2576) implemented in Hadoop 2.1. It provides a Java API to give hints to HDFS as to where the blocks should be placed.

It's not used in Impala as of 2014, but it definitely seems like building some groundwork for that - as it would give Impala a performance equivalent of specifying distribution key in traditional MPP databases.

这篇关于通过分区控制Impala中的数据局部性的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆