apache-tez - IT屋-程序员软件开发技术分享社区

在应用程序主服务器上搁置的ApacheTez任务

我遇到了TEZ问题，同时运行大约14个查询时，有些查询延迟超过5分钟，但集群利用率仅为14%。这就是我所说的消息。 INFO SessionState: [HiveServer2-Background-Pool: Thread-322319]: Get Query Coordinator (AM) 308.84s 我的配置如下： yarn.scheduler.maximu ..

发布时间：2022-04-04 19:53:54 hive hiveql apache-tez cdp cloudera-cdp 其他开发

Hive tez 执行错误

我正在运行 hive 查询，并且在设置 hive.execution.engine=tez 时出现以下错误，而查询在 engine=MR 下工作. FAILED:执行错误，从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1 我的查询是内连接，数据量很大. 另外一件事是我以前遇到过这个问题.但是 tez 后来起作用，所以我认为这是关于 h ..

发布时间：2021-12-28 23:46:31 hive apache-tez 其他开发

为什么 AWS EMR 中缺少 hive_staging 文件

问题 - 我正在 AWS EMR 中运行 1 个查询.它因抛出异常而失败 - java.io.FileNotFoundException: 文件 s3://xxx/yyy/internal_test_automation/2016/09/17/17156/data/feed/commerce_feed_redshift_dedup/.hive-staging_hive_2016-09-17 ..

发布时间：2021-12-28 23:30:31 amazon-web-services mapreduce hive hdfs apache-tez 其他开发

如何减少查询中的容器数量

我有一个使用大量容器和大量内存的查询.(已使用内存的 97%).有没有办法设置查询中使用的容器数量并限制最大内存?查询正在 Tez 上运行. 提前致谢解决方案控制 Mapper 的数量: 映射器的数量取决于各种因素，例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参阅初始任务并行的工作原理 MR 使用 CombineInputFormat，而 Tez ..

发布时间：2021-12-28 23:22:18 hive mapreduce ambari apache-tez hive-configuration 其他开发

只能复制到 0 个节点而不是 minReplication (=1).有 4 个数据节点正在运行，此操作中未排除任何节点

我不知道如何解决这个错误: 顶点失败，vertexName = initialmap，vertexId = vertex_1449805139484_0001_1_00，诊断= [任务失败，的TaskID = task_1449805139484_0001_1_00_000003，诊断= [AttemptID:attempt_1449805139484_0001_1_00_000003_0信息: ..

发布时间：2021-12-15 19:21:25 hadoop hdfs hadoop-yarn hadoop2 apache-tez 其他开发

在运行& quot; count(*)& quot;行为时的行为差异在Tez和Map减少

最近我遇到了这个问题.我在Hadoop分布式文件系统路径和相关的配置单元表中有一个文件.桌子两边有30个隔断. 我从HDFS删除了5个分区，然后在配置单元表上执行"msck修复表 ..

发布时间：2021-05-13 20:19:56 hadoop hive mapreduce apache-tez 其他开发

Hive Tez减速器运行异常缓慢

我加入了多个表，总行数约为250亿.最重要的是，我正在做聚合.以下是我的配置单元设置，用于生成最终输出.我不太确定如何调整查询并使其运行得更快.目前，我正在反复试验，看看是否可以产生一些结果，但似乎无法正常工作.有人可以分享您对此的想法吗?谢谢. SET hive.execution.engine=tez; SET hive.exec.dynamic.partition.mo ..

发布时间：2020-11-23 18:38:01 hadoop hive query-optimization hiveql apache-tez 其他开发

为什么我在Tez工作中得到的分配映射器为负数?顶点失败?

我正在尝试使用此处中记录的PhoenixStorageHandler，并在其中填充在beeline shell中执行以下查询: insert into table pheonix_table select * from hive_table; 在Tez会话中，我得到了映射器的以下细分: ... INFO : Map 1: 0(+50)/50 INFO : Map 1: 0(+ ..

发布时间：2020-11-22 19:02:13 hive hbase hiveql phoenix apache-tez 其他开发

配置单元查询显示几乎没有减少减速器，但查询仍在运行.输出正确吗?

我有一个复杂的查询，其中有多个左外部联接在过去的1小时内在Amazon AWS EMR中运行.但是很少有减速器显示为“失败并杀死". 我的问题是为什么一些减速器会被杀死?最终输出是否正确? 解决方案通常，每个容器在最终失败之前都会进行3次尝试(可配置，如@rbyndoor所述).如果一次尝试失败，它将重新启动，直到尝试次数达到限制为止；如果失败，则整个顶点失败，所有其他任务被终止. ..

发布时间：2020-08-23 02:38:09 hadoop hive amazon-emr apache-tez 其他开发

如何修复java.lang.IllegalArgumentException:无法识别的Hadoop主版本号:3.1.0?

我在查询中得到一个java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.0 exception.这是查询: WITH t1 as (select * from browserdata join citydata on cityid=id), t2 as (select uap ..

发布时间：2020-06-18 19:10:43 hadoop hive hortonworks-sandbox apache-tez 其他开发

在我们的发现集群中提高纱线容器利用率的建议

当前设置我们有10个节点的发现集群. 该群集的每个节点都有24个核心和264 GB内存，为后台进程保留一些内存和CPU，我们计划使用240 GB内存. 现在，在容器设置方面，由于每个容器可能需要1个核心，因此，我们最多可以有24个容器，每个容器具有10GB内存. 通常，群集的容器具有1-2 GB的内存，但是我们受限于我们拥有的可用核心，或者我可能缺少某些东西问题陈述由 ..

发布时间：2020-05-05 15:51:07 hadoop mapreduce yarn apache-tez planning 其他开发

运行"count(*)"时行为上的差异在Tez和Map减少

最近我遇到了这个问题.我在Hadoop分布式文件系统路径和相关的配置单元表中有一个文件.桌子两边有30个隔断. 我从HDFS删除了5个分区，然后在配置单元表上执行了"msck repair table ;".它完成得很好，但是输出了 “文件系统缺少分区:" 我尝试运行select count(*) ;(在tez上)失败，并出 ..

发布时间：2020-05-05 15:48:30 hadoop hive mapreduce apache-tez 其他开发

如何减少查询中的容器数

我有一个查询使用了很多容器和很多内存. (使用的内存的97％). 有没有一种方法可以设置查询中使用的容器数并限制最大内存? 该查询正在Tez上运行. 预先感谢解决方案控制映射器的数量: 映射器的数量取决于各种因素，例如，数据如何在节点之间分配，输入格式，执行引擎和配置参数.另请参见初始任务并行性的工作原理 MR使用CombineInputFormat，而Tez使用分 ..

发布时间：2020-05-05 15:37:52 hive mapreduce ambari apache-tez 其他开发

Map-Reduce登录Hive-Tez

我想在Hive-Tez上运行查询后获得Map-Reduce日志的解释？ INFO之后的内容：传达的是什么？在这里，我附上了一个示例 INFO：Session已经打开 INFO：Dag name：SELECT a.Model ...）信息：Tez会话已关闭。重新开启... 信息：会话重新建立。 INFO：信息：状态：正在运行（在应用程序ID为application_14708 ..

发布时间：2018-06-12 14:07:18 mapreduce hive yarn hiveql apache-tez 其他开发

配置单元tez执行错误

我正在运行配置单元查询，并在设置hive.execution.engine = tez时遇到以下错误，而查询在engine = MR下工作。 FAILED：执行错误，从org.apache.hadoop.hive.ql.exec.tez.TezTask返回代码1 $ b 我的查询是一个内部连接，数据非常大。另一件事是我以前遇到过这个问题。但tez后来工作，所以我认 ..

发布时间：2018-06-12 14:01:40 hive apache-tez 其他开发

如何减少SQL的生成文件“Alter Table / Partition Concatenate”在蜂巢？

Hive版本：1.2.1 配置：设置hive.execution.engine = tez; set hive.merge.mapredfiles = true; set hive.merge.smallfiles.avgsize = 256000000; set hive.merge.tezfiles = true; HQL： ALTER ..

发布时间：2018-06-12 13:55:23 merge hive concatenation apache-tez 其他开发

为什么AWS EMR中缺少hive_staging文件

问题 - 我在AWS EMR中运行1个查询。它通过抛出异常失败 - java.io.FileNotFoundException：文件s3：// xxx / yyy / internal_test_automation / 2016 / 09/17/17156 / data / feed / commerce_feed_redshift_dedup / .hive-staging_hi ..

发布时间：2018-06-06 11:01:28 amazon-web-services mapreduce hive hdfs apache-tez 其他开发

Tez作业在由不同用户提交时失败

配置了具有Kerberos安全性的Hadoop-2.6.0 HA群集。当使用tez-example-0.6.0.jar在不同用户的 yarn-tez 框架中提交示例作业时，获取下面的异常异常 java.io.IOException：临时目录hdfs上的所有权：// clustername / tmp / staging不符合预期。它由Kumar拥有。该目录必须由提交者TestUse ..

发布时间：2018-05-31 19:48:05 java hadoop kerberos yarn apache-tez Java开发

Hive比Spark更快吗？

阅读什么是配置单元，它是一个数据库吗？，一位同事昨天提到，他能够筛选出一张15B的桌子，并且在做了一个“group by”之后加入了另一张桌子，只用了10分钟就产生了6B个纪录！我想知道这是否会在Spark中变慢，因为现在使用DataFrames，它们可能具有可比性，但我不确定，因此这个问题。 Hive比火花？或者这个问题没有意义？对不起，因为我的无知。他使用最新的Hive，它似乎 ..

发布时间：2018-05-31 19:35:02 hadoop apache-spark hive apache-tez bigdata 分布式计算/Hadoop

只能复制到0个节点而不是minReplication（= 1）。有4个数据节点正在运行，并且在此操作中不包含任何节点

顶点失败，vertexName = initialmap，vertexId = vertex_1449805139484_0001_1_00，诊断= [Task failed，taskId = task_1449805139484_0001_1_00_000003，diagnostics = [AttemptID：attempt_1449805139484_0001_1_00_000003_0 I ..

发布时间：2018-05-31 18:30:48 hadoop hdfs yarn hadoop2 apache-tez 分布式计算/Hadoop

apache-tez相关内容