蜂巢左外连接长时间运行 [英] hive left outer join long running

查看:121
本文介绍了蜂巢左外连接长时间运行的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

Hortonworks HDP 2.3.0 - Hive 0.14

表T1(col1上的分区,无桶,ORC)app 1.2 million rows& 6GB数据大小
表T2(col2上的分区,无桶,ORC)app 200 M rows& 6MB datasize

T1在t2(t1.col3 = t2.col3)上留下了外部连接上面的查询在tez& amp; amp;先生模式。
我也尝试将自动转换为true / false&显式mapjoin。

仍然查询运行在最后一个reducer阶段,永无止境。



FYI - If T2的数​​据大小为9k或1GB,查询结束。

解决方案

但你有没有尝试给自动转换连接的大小,尝试给尺寸大于可以放入内存的小表。


set hive.auto.convert.join.noconditionaltask.size = 10000000;



Hortonworks HDP 2.3.0 - Hive 0.14

Table T1 ( partition on col1, no bucket, ORC ) app 120 million rows & 6GB datasize Table T2 ( partition on col2, no bucket, ORC ) app 200 M rows & 6MB datasize

T1 left outer join on t2 ( t1.col3 = t2.col3 )

The above query is long running in the last reducer phase in both tez & mr mode. I also tried auto convert true / false & explicit mapjoin.

Still the query is running in the last reducer phase, never ending.

FYI - If data size of T2 is either 9k or 1GB, the query finishes.

解决方案

But have you tried giving size to auto convert join, try giving size > than of small table that can be fit into memory.

set hive.auto.convert.join.noconditionaltask.size = 10000000;

这篇关于蜂巢左外连接长时间运行的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆