yarn相关内容
我介绍的是YARN,它取代了JobTracker和TaskTracker. 我看过一些Hadoop 2.6.0/2.7.0安装教程,他们将mapreduce.framework.name配置为yarn,将mapred.job.tracker属性配置为local或host:port. mapred.job.tracker属性的描述为 "MapReduce作业跟踪器运行所在的主机和端
..
关于CDH4,我有几个问题甚至是困惑.我之所以张贴在这里,是因为我没有得到关于我的问题的任何具体信息. CDH4是否旨在促进YARN?我尝试使用tarball使用CDH4.3.0设置MapReduce1.我终于做到了,但是这很痛苦.而YARN的建立是遥遥领先的. 有人在生产中使用YARN吗? Apache明确表示YARN仍为Alpha版本,并不打算用于生产.在这种情况下,Clouder
..
因此,通过mapreduce v2,您可以使用对某些YARN队列的绑定来管理资源和优先级. 基本上使用 完美运行的"hadoop jar/xyz.jar -D mapreduce.job.queuename = QUEUE1/input/output". 在运行sqoop查询时,如何将Yarn队列绑定与Sqoop集成在一起? 即. sqoop import \ --connect
..
我使用hadoop2.7.1的rest api在集群外运行mapreduce作业.此示例" http://hadoop-forum.org/forum/general-hadoop-discussion/miscellaneous/2136-how-can-i-run-mapreduce-job-by-rest-api "帮助过我.但是当我提交帖子回复时,会发生一些奇怪的事情: 我看着" h
..
Cloudera CDH5.2快速入门VM Cloudera Manager显示所有节点状态=绿色 我在Eclipse上执行了MR工作,包括构建路径中的所有相关cloudera jars: avro-1.7.6-cdh5.2.0.jar, avro-mapred-1.7.6-cdh5.2.0-hadoop2.jar, hadoop-common-2.5.0-cdh5.2.0.jar, had
..
有人有蜂巢错误代码列表吗? 例如,如果我们在蜂巢中发现一个表未找到错误,则"echo $?"的值将是17. 解决方案 如果您查看 尽管为了将它们映射到退出代码,您可能必须逐步浏览CLI代码以进行跟踪.
..
我有一个流媒体应用程序,我想使用Elasticsearch-Kibana分析作业日志.我的工作是在纱线簇上运行的,因此将yarn.log-aggregation-enable设置为true时,日志已写入HDFS.但是,当我尝试执行此操作时: hadoop fs -cat ${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/
..
在 yarn-default.xml 会显示yarn.nodemanager.log-dirs的默认值为$ {yarn.log.dir}/userlogs. yarn.log.dir在哪里定义?有默认值吗? 我在任何默认配置(core-default.xml,hdfs-default.xml,mapred-default.xml,yarn-default.xml)中都找不到它.
..
我的作业在Hadoop 2.6.0上运行成功,但是记录器根本无法工作 我总是看到 log4j:WARN No appenders could be found for logger (org.apache.hadoop.mapreduce.v2.app.MRAppMaster). log4j:WARN Please initialize the log4j system properl
..
我想创建一个自定义记录器,该记录器从执行者的消息中写入群集节点中特定文件夹中的消息.我已经在SPARK_HOME/conf/中编辑了log4j.properties文件,如下所示: log4j.rootLogger=${root.logger} root.logger=WARN,console log4j.appender.console=org.apache.log4j.ConsoleAp
..
我在群集上启用了Kerberos,它工作正常.但是由于某些问题,被映射的用户无法通过JobHistory服务器读取和显示日志.我检查了作业历史记录服务器的日志,并给出了如下访问错误: org.apache.hadoop.security.AccessControlException: Permission denied:user=mapred, access=READ_EXECUTE, in
..
有人可以帮助我了解YARN中JVM和容器之间的关系吗? 如何创建JVM,每个任务是一个JVM吗?多个任务可以同时在同一个JVM中运行吗? (我知道ubertasking,其中许多任务(映射/归约)可以在一个JVM中一个接一个地运行). 每个容器是一个JVM吗?或单个JVM中有多个容器?还是JVM和容器之间没有关系? 当资源管理器为一个作业分配容器时,同一作业内的多个任务是否对在同一节点中
..
运行启用了本地内存跟踪的Java应用程序(在YARN中)(-XX:NativeMemoryTracking=detail请参见 https://docs.oracle.com/javase/8/docs/technotes/guides/疑难解答/tooldescr007.html ),我可以看到JVM在不同类别中使用了多少内存. 我在jdk 1.8.0_45上的应用显示: Nativ
..
是否有任何解析器,可用于解析存在于hdfs中的纱线作业日志(jhist文件)中的json,以从中提取信息. 解决方案 .jhist文件中的第二行是文件中其他json的avro模式.这意味着您可以从jhist文件中创建avro数据. 为此,您可以使用 avro-tools-1.7.7.jar # schema is the second line sed -n '2p;3q' file
..
我想使用YARN java API提交我的MR工作,我尝试像 WritingYarnApplications ,但我不知道要添加什么amContainer,下面是我写的代码: package org.apache.hadoop.examples; import org.apache.hadoop.conf.Configuration; import org.apache.had
..
我正在尝试运行Spring Boot YARN示例( https://spring.io Windows上的/ guides / gs / yarn-basic / 。在 application.yml 我将 fsUri 和 resourceManagerHost 改为指向到我的VM的主机 192.168 ... 。 但是当我试图运行应用程序时出现Exceprion: DFSClient
..
我想从java调用spark jar(在yarn上运行spark进程),并尝试使用
..
我在纱线集群中运行我的火花应用程序。在我的代码中,我使用数量可用的队列核心在我的数据集上创建分区: 数据集ds = ... ds.coalesce(config.getNumberOfCores()); 我的问题:我如何通过编程方式而不是按配置获取队列的可用核心数? / p> 解决方案 有很多方法可以从Spark中获取集群中的执行程序数和核心数。这是我过去使用过
..
我想在远程服务器上的纱线群集上运行火花串流应用程序。默认的java版本是1.7,但我想为我的应用程序使用1.8,它也在服务器中,但不是默认值。有没有办法通过spark-submit指定java 1.8的位置,以便我没有得到major.minor错误? 解决方案 JAVA_HOME在我们的情况下是不够的,驱动程序在java 8中运行,但我后来发现YARN中的Spark工作人员是使用java
..
你好,我试图执行简单的请求。但hive总是返回错误: pre $ 错误:java.lang.ClassNotFoundException:org.apache.avro.io.DatumWriter 在java.net.URLClassLoader $ 1.run(URLClassLoader.java:366) 在java.net.URLClassLoader $ 1.run(URLC
..