yarn相关内容

Spark提交YARN模式的HADOOP_CONF_DIR内容

我正在从我的开发机器启动spark-submit。 我试图在Hadoop集群上使用spark submit在YARN模式上启动spark任务。 p> 根据运行Spark在YARN 文档中,我应该为env var HADOOP_CONF_DIR 或 YARN_CONF_DIR 。这就是棘手的问题:如果我将任务发送到远程YARN服务,为什么这些文件夹必须存在于本地计算机上?这是否意味着spar ..
发布时间:2018-05-31 19:38:31 分布式计算/Hadoop

纱线:自动清除文件缓存& usercache

我们正在使用yarn作为资源管理器运行Spark Streaming作业,注意到这两个目录在数据节点上已经满了,而当我们只运行几分钟的时候,我们的空间不足了。 / tmp / hadoop / data / nm-local-dir / filecache $ b $ p 这些目录不会自动清除,因为我的研究发现需要设置此属性 yarn.nodemanager.localizer.ca ..
发布时间:2018-05-31 19:37:50 分布式计算/Hadoop

Spark提交问题

我正在尝试使用Spark提交在Spark群集上运行一个胖jar。 我在AWS上使用Spark包中的“spark-ec2”可执行文件创建了集群。 我用来运行jar文件的命令是 bin / spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big -data-hw2-assem ..

Spark将其作为另一个用户提交给纱线

是否有可能向纱线群集提交点火作业,并且可以通过命令行或罐子内部选择哪个用户将“拥有”该作业? spark-submit将从包含用户的脚本启动。 PS:如果集群具有kerberos配置(并且脚本为keytab )? 解决方案 对于非kerberized集群: export HADOOP_USER_NAME =在提交Spark作业之前,zorro 会执行该操作。 事后如果您想 ..
发布时间:2018-05-31 19:33:07 分布式计算/Hadoop

将Yarn群集配置添加到Spark应用程序

我试图在scala sbt应用程序中使用spark,而不是直接使用 spark-submit 。 我已经有一个远程纱线群正在运行,并且我可以连接到SparkR中的纱线群运行点火作业。但是当我尝试在scala应用程序中做类似的事情时,它无法将我的环境变量加载到纱线配置中,而是使用默认纱线地址和端口。 sbt应用程序只是一个简单的对象: object simpleSparkApp ..
发布时间:2018-05-31 19:31:27 分布式计算/Hadoop

无法在hadoop 2.4.0上运行MapReduce作业

我是hadoop的新手,这是我的问题。我在3台机器的簇上配置了hadoop 2.4.0和jdk1.7.60。我能够执行hadoop的所有命令。现在我修改了wordcount示例并创建了jar文件。我已经在hadoop 1.2.1上执行了这个jar文件并得到了结果。但现在在hadoop 2.4.0上我没有收到任何结果。 用于执行的命令 $ hadoop jar WordCount.ja ..
发布时间:2018-05-31 19:29:11 Java开发

为什么YARN java堆空间内存错误?

我想尝试在YARN中设置内存,所以我会尝试在yarn-site.xml和mapred-site.xml中配置一些参数。顺便说一句,我使用hadoop 2.6.0。但是,当我执行mapreduce作业时出现错误。它是这样说的: 15/03/12 10:57:23信息mapreduce.Job:任务ID: attempt_1426132548565_0001_m_000002_0,状态:FA ..
发布时间:2018-05-31 19:29:08 Java开发

Spark与执行程序和内核的数量相关联

我正在提出一个关于Spark的非常愚蠢的问题,因为我想澄清我的困惑。如果我有一个我想要的输入文件列表(假定为1000),我想在Spark中非常新,并且仍然试图了解它在内部是如何工作的。 处理或写入某处,我想使用coalesce将我的分区数量减少到100个。 现在我运行12个执行程序,每个执行程序5个内核,即60任务运行时。这是否意味着,每个任务都可以在单个分区上独立运行? $ b ..
发布时间:2018-05-31 19:24:39 分布式计算/Hadoop

Spark在Yarn集群上运行exitCode = 13:

我是一个火花/纱线新手,当我在纱线群上提交一个点火作业时,碰到exitCode = 13。当火花作业在本地模式下运行时,一切正常。 我使用的命令是: / usr / hdp / current / spark-client / bin / spark-submit --class com.test.sparkTest - 主线 - 部署模式集群--num-executors 40 ..
发布时间:2018-05-31 19:22:49 分布式计算/Hadoop

YARN shell命令获取正在运行的应用程序使用的容器和vcore的数量

hadoop job -list 似乎只显示mapreduce作业,但是我的资源管理器UI为所有正在运行的作业显示“Allocated CPU VCores”和“Allocated Memory MB” (包括诸如Spark和Tez之类的东西)。 如何通过命令行获取这些结果而不是访问UI? $ b $解决方案 YARN支持不同类型的应用程序。 “MapReduce”是YARN支持的一种应用 ..
发布时间:2018-05-31 19:21:58 分布式计算/Hadoop

如何使用CDH4和Yarn查看我的Hadoop作业历史记录和日志?

我用Yarn下载了Hadoop的CDH4 tar,作业运行良好,但我无法弄清楚从我的工作中查看日志的位置。在MRv1中,我只是去了JobTracker网络应用程序,它有工作的历史。个人作业的日志也可以从这里访问,或者转到日志/用户日志目录。 在我的新Yarn设置中(仅在单台计算机上运行),我有日志目录,但没有日志/用户日志文件夹。 当我进入ResourceManager网页localh ..
发布时间:2018-05-31 19:21:56 分布式计算/Hadoop

YARN UNHEALTHY节点

在我们的YARN集群中,有80%已满,我们看到一些纱线节点管理员被标记为“不健康”。在挖掘日志之后,我发现它是因为磁盘空间占用了数据目录的90%的空间。出现以下错误: 2015-02-21 08:33:51,590 INFO org.apache.hadoop.yarn.server.resourcemanager。 rmnode.RMNodeImpl:节点hdp009.abc.com:8 ..

Apache Hadoop示例的源代码在哪里?

任何人都可以请我指导Apache Hadoop Yarn示例的源代码。 2.2.0发行版带有jar名称hadoop-mapreduce-examples-2.2.0.jar。我正在尝试查找示例的源代码。 任何指针都会有帮助... 谢谢,Amit 解决方案 div> 你看过SVN中的源代码吗?这里是。 http://svn.apache .org / viewvc / hadoop ..
发布时间:2018-05-31 19:17:01 分布式计算/Hadoop