apache-tez相关内容

Hive tez 执行错误

我正在运行 hive 查询,并且在设置 hive.execution.engine=tez 时出现以下错误,而查询在 engine=MR 下工作. FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1 我的查询是内连接,数据量很大. 另外一件事是我以前遇到过这个问题.但是 tez 后来起作用,所以我认为这是关于 h ..
发布时间:2021-12-28 23:46:31 其他开发

如何减少查询中的容器数量

我有一个使用大量容器和大量内存的查询.(已使用内存的 97%).有没有办法设置查询中使用的容器数量并限制最大内存?查询正在 Tez 上运行. 提前致谢 解决方案 控制 Mapper 的数量: 映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参阅初始任务并行的工作原理 MR 使用 CombineInputFormat,而 Tez ..
发布时间:2021-12-28 23:22:18 其他开发

Hive Tez减速器运行异常缓慢

我加入了多个表,总行数约为250亿.最重要的是,我正在做聚合.以下是我的配置单元设置,用于生成最终输出.我不太确定如何调整查询并使其运行得更快.目前,我正在反复试验,看看是否可以产生一些结果,但似乎无法正常工作.有人可以分享您对此的想法吗?谢谢. SET hive.execution.engine=tez; SET hive.exec.dynamic.partition.mo ..
发布时间:2020-11-23 18:38:01 其他开发

配置单元查询显示几乎没有减少减速器,但查询仍在运行.输出正确吗?

我有一个复杂的查询,其中有多个左外部联接在过去的1小时内在Amazon AWS EMR中运行.但是很少有减速器显示为“失败并杀死". 我的问题是为什么一些减速器会被杀死?最终输出是否正确? 解决方案 通常,每个容器在最终失败之前都会进行3次尝试(可配置,如@rbyndoor所述).如果一次尝试失败,它将重新启动,直到尝试次数达到限制为止;如果失败,则整个顶点失败,所有其他任务被终止. ..
发布时间:2020-08-23 02:38:09 其他开发

在我们的发现集群中提高纱线容器利用率的建议

当前设置 我们有10个节点的发现集群. 该群集的每个节点都有24个核心和264 GB内存,为后台进程保留一些内存和CPU,我们计划使用240 GB内存. 现在,在容器设置方面,由于每个容器可能需要1个核心,因此,我们最多可以有24个容器,每个容器具有10GB内存. 通常,群集的容器具有1-2 GB的内存,但是我们受限于我们拥有的可用核心,或者我可能缺少某些东西 问题陈述 由 ..
发布时间:2020-05-05 15:51:07 其他开发

运行"count(*)"时行为上的差异在Tez和Map减少

最近我遇到了这个问题.我在Hadoop分布式文件系统路径和相关的配置单元表中有一个文件.桌子两边有30个隔断. 我从HDFS删除了5个分区,然后在配置单元表上执行了"msck repair table ;".它完成得很好,但是输出了 “文件系统缺少分区:" 我尝试运行select count(*) ;(在tez上)失败,并出 ..
发布时间:2020-05-05 15:48:30 其他开发

如何减少查询中的容器数

我有一个查询使用了很多容器和很多内存. (使用的内存的97%). 有没有一种方法可以设置查询中使用的容器数并限制最大内存? 该查询正在Tez上运行. 预先感谢 解决方案 控制映射器的数量: 映射器的数量取决于各种因素,例如,数据如何在节点之间分配,输入格式,执行引擎和配置参数.另请参见 初始任务并行性的工作原理 MR使用CombineInputFormat,而Tez使用分 ..
发布时间:2020-05-05 15:37:52 其他开发

Map-Reduce登录Hive-Tez

我想在Hive-Tez上运行查询后获得Map-Reduce日志的解释? INFO之后的内容:传达的是什么? 在这里,我附上了一个示例 INFO:Session已经打开 INFO:Dag name:SELECT a.Model ...) 信息:Tez会话已关闭。重新开启... 信息:会话重新建立。 INFO: 信息:状态:正在运行(在应用程序ID为application_14708 ..
发布时间:2018-06-12 14:07:18 其他开发

配置单元tez执行错误

我正在运行配置单元查询,并在设置hive.execution.engine = tez时遇到以下错误,而查询在engine = MR下工作。 FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.tez.TezTask返回代码1 $ b 我的查询是一个内部连接,数据非常大。 另一件事是我以前遇到过这个问题。但tez后来工作,所以我认 ..
发布时间:2018-06-12 14:01:40 其他开发

Tez作业在由不同用户提交时失败

配置了具有Kerberos安全性的Hadoop-2.6.0 HA群集。当使用tez-example-0.6.0.jar在不同用户的 yarn-tez 框架中提交示例作业时,获取下面的异常 异常 java.io.IOException:临时目录hdfs上的所有权:// clustername / tmp / staging不符合预期。它由Kumar拥有。该目录必须由提交者TestUse ..
发布时间:2018-05-31 19:48:05 Java开发

Hive比Spark更快吗?

阅读什么是配置单元,它是一个数据库吗? ,一位同事昨天提到,他能够筛选出一张15B的桌子,并且在做了一个“group by”之后加入了另一张桌子,只用了10分钟就产生了6B个纪录!我想知道这是否会在Spark中变慢,因为现在使用DataFrames,它们可能具有可比性,但我不确定,因此这个问题。 Hive比火花?或者这个问题没有意义?对不起,因为我的无知。 他使用最新的Hive,它似乎 ..
发布时间:2018-05-31 19:35:02 分布式计算/Hadoop