apache-tez相关内容
我遇到了TEZ问题,同时运行大约14个查询时,有些查询延迟超过5分钟,但集群利用率仅为14%。 这就是我所说的消息。 INFO SessionState: [HiveServer2-Background-Pool: Thread-322319]: Get Query Coordinator (AM) 308.84s 我的配置如下: yarn.scheduler.maximu
..
我正在运行 hive 查询,并且在设置 hive.execution.engine=tez 时出现以下错误,而查询在 engine=MR 下工作. FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1 我的查询是内连接,数据量很大. 另外一件事是我以前遇到过这个问题.但是 tez 后来起作用,所以我认为这是关于 h
..
问题 - 我正在 AWS EMR 中运行 1 个查询.它因抛出异常而失败 - java.io.FileNotFoundException: 文件 s3://xxx/yyy/internal_test_automation/2016/09/17/17156/data/feed/commerce_feed_redshift_dedup/.hive-staging_hive_2016-09-17
..
我有一个使用大量容器和大量内存的查询.(已使用内存的 97%).有没有办法设置查询中使用的容器数量并限制最大内存?查询正在 Tez 上运行. 提前致谢 解决方案 控制 Mapper 的数量: 映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参阅初始任务并行的工作原理 MR 使用 CombineInputFormat,而 Tez
..
我不知道如何解决这个错误: 顶点失败,vertexName = initialmap,vertexId = vertex_1449805139484_0001_1_00,诊断= [任务失败,的TaskID = task_1449805139484_0001_1_00_000003,诊断= [AttemptID:attempt_1449805139484_0001_1_00_000003_0信息:
..
最近我遇到了这个问题.我在Hadoop分布式文件系统路径和相关的配置单元表中有一个文件.桌子两边有30个隔断. 我从HDFS删除了5个分区,然后在配置单元表上执行"msck修复表
..
我加入了多个表,总行数约为250亿.最重要的是,我正在做聚合.以下是我的配置单元设置,用于生成最终输出.我不太确定如何调整查询并使其运行得更快.目前,我正在反复试验,看看是否可以产生一些结果,但似乎无法正常工作.有人可以分享您对此的想法吗?谢谢. SET hive.execution.engine=tez; SET hive.exec.dynamic.partition.mo
..
我正在尝试使用此处中记录的PhoenixStorageHandler,并在其中填充在beeline shell中执行以下查询: insert into table pheonix_table select * from hive_table; 在Tez会话中,我得到了映射器的以下细分: ... INFO : Map 1: 0(+50)/50 INFO : Map 1: 0(+
..
我有一个复杂的查询,其中有多个左外部联接在过去的1小时内在Amazon AWS EMR中运行.但是很少有减速器显示为“失败并杀死". 我的问题是为什么一些减速器会被杀死?最终输出是否正确? 解决方案 通常,每个容器在最终失败之前都会进行3次尝试(可配置,如@rbyndoor所述).如果一次尝试失败,它将重新启动,直到尝试次数达到限制为止;如果失败,则整个顶点失败,所有其他任务被终止.
..
我在查询中得到一个java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.0 exception.这是查询: WITH t1 as (select * from browserdata join citydata on cityid=id), t2 as (select uap
..
当前设置 我们有10个节点的发现集群. 该群集的每个节点都有24个核心和264 GB内存,为后台进程保留一些内存和CPU,我们计划使用240 GB内存. 现在,在容器设置方面,由于每个容器可能需要1个核心,因此,我们最多可以有24个容器,每个容器具有10GB内存. 通常,群集的容器具有1-2 GB的内存,但是我们受限于我们拥有的可用核心,或者我可能缺少某些东西 问题陈述 由
..
最近我遇到了这个问题.我在Hadoop分布式文件系统路径和相关的配置单元表中有一个文件.桌子两边有30个隔断. 我从HDFS删除了5个分区,然后在配置单元表上执行了"msck repair table ;".它完成得很好,但是输出了 “文件系统缺少分区:" 我尝试运行select count(*) ;(在tez上)失败,并出
..
我有一个查询使用了很多容器和很多内存. (使用的内存的97%). 有没有一种方法可以设置查询中使用的容器数并限制最大内存? 该查询正在Tez上运行. 预先感谢 解决方案 控制映射器的数量: 映射器的数量取决于各种因素,例如,数据如何在节点之间分配,输入格式,执行引擎和配置参数.另请参见 初始任务并行性的工作原理 MR使用CombineInputFormat,而Tez使用分
..
我想在Hive-Tez上运行查询后获得Map-Reduce日志的解释? INFO之后的内容:传达的是什么? 在这里,我附上了一个示例 INFO:Session已经打开 INFO:Dag name:SELECT a.Model ...) 信息:Tez会话已关闭。重新开启... 信息:会话重新建立。 INFO: 信息:状态:正在运行(在应用程序ID为application_14708
..
我正在运行配置单元查询,并在设置hive.execution.engine = tez时遇到以下错误,而查询在engine = MR下工作。 FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.tez.TezTask返回代码1 $ b 我的查询是一个内部连接,数据非常大。 另一件事是我以前遇到过这个问题。但tez后来工作,所以我认
..
Hive版本:1.2.1 配置:设置hive.execution.engine = tez; set hive.merge.mapredfiles = true; set hive.merge.smallfiles.avgsize = 256000000; set hive.merge.tezfiles = true; HQL: ALTER
..
问题 - 我在AWS EMR中运行1个查询。它通过抛出异常失败 - java.io.FileNotFoundException:文件s3:// xxx / yyy / internal_test_automation / 2016 / 09/17/17156 / data / feed / commerce_feed_redshift_dedup / .hive-staging_hi
..
配置了具有Kerberos安全性的Hadoop-2.6.0 HA群集。当使用tez-example-0.6.0.jar在不同用户的 yarn-tez 框架中提交示例作业时,获取下面的异常 异常 java.io.IOException:临时目录hdfs上的所有权:// clustername / tmp / staging不符合预期。它由Kumar拥有。该目录必须由提交者TestUse
..
阅读什么是配置单元,它是一个数据库吗? ,一位同事昨天提到,他能够筛选出一张15B的桌子,并且在做了一个“group by”之后加入了另一张桌子,只用了10分钟就产生了6B个纪录!我想知道这是否会在Spark中变慢,因为现在使用DataFrames,它们可能具有可比性,但我不确定,因此这个问题。 Hive比火花?或者这个问题没有意义?对不起,因为我的无知。 他使用最新的Hive,它似乎
..
顶点失败,vertexName = initialmap,vertexId = vertex_1449805139484_0001_1_00,诊断= [Task failed,taskId = task_1449805139484_0001_1_00_000003,diagnostics = [AttemptID:attempt_1449805139484_0001_1_00_000003_0 I
..