yarn相关内容

为什么我们在YARN中配置mapred.job.tracker?

我介绍的是YARN,它取代了JobTracker和TaskTracker. 我看过一些Hadoop 2.6.0/2.7.0安装教程,他们将mapreduce.framework.name配置为yarn,将mapred.job.tracker属性配置为local或host:port. mapred.job.tracker属性的描述为 "MapReduce作业跟踪器运行所在的主机和端 ..
发布时间:2020-05-05 15:46:51 其他开发

CDH4主要用于YARN吗?

关于CDH4,我有几个问题甚至是困惑.我之所以张贴在这里,是因为我没有得到关于我的问题的任何具体信息. CDH4是否旨在促进YARN?我尝试使用tarball使用CDH4.3.0设置MapReduce1.我终于做到了,但是这很痛苦.而YARN的建立是遥遥领先的. 有人在生产中使用YARN吗? Apache明确表示YARN仍为Alpha版本,并不打算用于生产.在这种情况下,Clouder ..
发布时间:2020-05-05 15:44:32 其他开发

Sqoop-绑定到YARN队列

因此,通过mapreduce v2,您可以使用对某些YARN队列的绑定来管理资源和优先级. 基本上使用 完美运行的"hadoop jar/xyz.jar -D mapreduce.job.queuename = QUEUE1/input/output". 在运行sqoop查询时,如何将Yarn队列绑定与Sqoop集成在一起? 即. sqoop import \ --connect ..
发布时间:2020-05-05 15:41:24 其他开发

通过Rest API运行MapReduce作业

我使用hadoop2.7.1的rest api在集群外运行mapreduce作业.此示例" http://hadoop-forum.org/forum/general-hadoop-discussion/miscellaneous/2136-how-can-i-run-mapreduce-job-by-rest-api "帮助过我.但是当我提交帖子回复时,会发生一些奇怪的事情: 我看着" h ..
发布时间:2020-05-05 15:41:01 其他开发

Apache Spark:纱线日志分析

我有一个流媒体应用程序,我想使用Elasticsearch-Kibana分析作业日志.我的工作是在纱线簇上运行的,因此将yarn.log-aggregation-enable设置为true时,日志已写入HDFS.但是,当我尝试执行此操作时: hadoop fs -cat ${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/ ..
发布时间:2020-05-04 03:35:42 其他开发

yarn.log.dir在哪里定义?

在 yarn-default.xml 会显示yarn.nodemanager.log-dirs的默认值为$ {yarn.log.dir}/userlogs. yarn.log.dir在哪里定义?有默认值吗? 我在任何默认配置(core-default.xml,hdfs-default.xml,mapred-default.xml,yarn-default.xml)中都找不到它. ..
发布时间:2020-05-03 08:25:02 其他开发

hadoop log4j无法正常工作

我的作业在Hadoop 2.6.0上运行成功,但是记录器根本无法工作 我总是看到 log4j:WARN No appenders could be found for logger (org.apache.hadoop.mapreduce.v2.app.MRAppMaster). log4j:WARN Please initialize the log4j system properl ..
发布时间:2020-05-03 06:41:40 其他开发

纱线模式下的Spark File Logger

我想创建一个自定义记录器,该记录器从执行者的消息中写入群集节点中特定文件夹中的消息.我已经在SPARK_HOME/conf/中编辑了log4j.properties文件,如下所示: log4j.rootLogger=${root.logger} root.logger=WARN,console log4j.appender.console=org.apache.log4j.ConsoleAp ..
发布时间:2020-05-03 06:40:07 其他开发

启用kerberos后,historyserver无法读取日志

我在群集上启用了Kerberos,它工作正常.但是由于某些问题,被映射的用户无法通过JobHistory服务器读取和显示日志.我检查了作业历史记录服务器的日志,并给出了如下访问错误: org.apache.hadoop.security.AccessControlException: Permission denied:user=mapred, access=READ_EXECUTE, in ..
发布时间:2020-04-25 11:14:00 其他开发

纱:容器和JVM

有人可以帮助我了解YARN中JVM和容器之间的关系吗? 如何创建JVM,每个任务是一个JVM吗?多个任务可以同时在同一个JVM中运行吗? (我知道ubertasking,其中许多任务(映射/归约)可以在一个JVM中一个接一个地运行). 每个容器是一个JVM吗?或单个JVM中有多个容器?还是JVM和容器之间没有关系? 当资源管理器为一个作业分配容器时,同一作业内的多个任务是否对在同一节点中 ..
发布时间:2020-04-25 07:24:45 Java开发

存储在hdfs中的纱线解析作业日志

是否有任何解析器,可用于解析存在于hdfs中的纱线作业日志(jhist文件)中的json,以从中提取信息. 解决方案 .jhist文件中的第二行是文件中其他json的avro模式.这意味着您可以从jhist文件中创建avro数据. 为此,您可以使用 avro-tools-1.7.7.jar # schema is the second line sed -n '2p;3q' file ..
发布时间:2019-11-24 19:21:00 其他开发

如何在java中使用yarn api提交mapreduce作业

我想使用YARN java API提交我的MR工作,我尝试像 WritingYarnApplications ,但我不知道要添加什么amContainer,下面是我写的代码: package org.apache.hadoop.examples; import org.apache.hadoop.conf.Configuration; import org.apache.had ..
发布时间:2019-01-10 13:26:36 Java开发

Spark:以编程方式获取集群核心数

我在纱线集群中运行我的火花应用程序。在我的代码中,我使用数量可用的队列核心在我的数据集上创建分区: 数据集ds = ... ds.coalesce(config.getNumberOfCores()); 我的问题:我如何通过编程方式而不是按配置获取队列的可用核心数? / p> 解决方案 有很多方法可以从Spark中获取集群中的执行程序数和核心数。这是我过去使用过 ..
发布时间:2018-12-29 20:20:06 Java开发

如何在spark-submit命令中指定要使用的java版本?

我想在远程服务器上的纱线群集上运行火花串流应用程序。默认的java版本是1.7,但我想为我的应用程序使用1.8,它也在服务器中,但不是默认值。有没有办法通过spark-submit指定java 1.8的位置,以便我没有得到major.minor错误? 解决方案 JAVA_HOME在我们的情况下是不够的,驱动程序在java 8中运行,但我后来发现YARN中的Spark工作人员是使用java ..
发布时间:2018-12-28 22:10:21 Java开发