yarn相关内容

GCP Dataproc-配置YARN公平调度程序

我试图建立一个dataproc集群,该集群一次只能计算一个作业(或指定的最大作业),其余的将在队列中. 我找到了此解决方案,如何配置垄断FIFO YARN中的应用程序队列?,但是由于我总是在创建一个新集群,因此需要使它自动化.我已将其添加到集群创建中: "softwareConfig": { "properties": { "yarn:yarn.resource ..
发布时间:2020-11-18 02:05:17 其他开发

Hadoop HDFS不能平均分配数据块

我当前正在运行一个具有2个节点的集群. 1个节点是主/从节点,另一个是从节点.我有一个文件,并将块大小设置为该文件大小的一半.然后我 hdfs dfs -put file / 文件被复制到HDFS没问题,但是当我检查HDFS站点时,我看到创建的两个块都在一个datanode中(这些块在我使用-put命令的datanode上).我什至尝试调用均衡器脚本,但两个块仍在同一数据节点上. ..
发布时间:2020-11-06 04:23:20 其他开发

纱线堆的使用量随时间增长

我们在AWS EMR上运行Spark Streaming作业。该作业将稳定运行10到14个小时,然后崩溃,并且stderr,stdout或Cloudwatch日志中没有明显的错误。在此崩溃之后,任何尝试重新启动作业的尝试都会立即失败,并显示“无法分配内存”(errno = 12)(完整的消息)。 对Cloudwatch指标和Ganglia的调查均显示 driver.jvm.heap.used ..
发布时间:2020-10-29 05:29:55 其他开发

YARN上的Spark:执行程序内存少于通过spark-submit设置的执行程序内存

我在具有以下设置的YARN群集(HDP 2.4)中使用Spark: 1个主节点 64 GB RAM(可用48 GB) 12核(可用8核) 5个从节点 每个64 GB RAM(可用48 GB) 每个12核(可用8核) YARN设置 (一个主机的)所有容器的内存:48 GB 最小容器大小=最大容器大小= 6 GB 集群中的vcore = 40(5 x 8个工 ..

在YARN群集中的特定节点上运行我自己的应用程序母版

首先,我正在使用Hadoop-2.6.0。我想在YARN群集中的特定节点上启动我自己的应用程序主机,以便在预定的IP地址和端口上打开服务器。为此,我编写了一个驱动程序,在其中创建了一个 ResourceRequest 对象,并调用了 setResourceName 方法来设置主机名,并将其附加到 ApplicationSubmissionContext setAMContainerResource ..
发布时间:2020-10-08 21:07:47 其他开发

Hadoop多节点集群太慢。如何提高数据处理速度?

我有一个6节点群集-5 DN和1 NN。全部都有32 GB RAM。所有从站均具有8.7 TB硬盘。 DN具有1.1 TB硬盘。这是我的 core-site.xml 的链接, hdfs-site.xml , yarn-site.xml 。 运行MR作业后,我检查了我的RAM用法,如下所述: Namenode 免费-g 已使用的总计免费共享buff /缓存可用 内存:31 7 1 ..
发布时间:2020-10-03 02:39:48 其他开发

Spark Streaming应用程序失败,出现KafkaException:字符串超出最大大小或IllegalArgumentException

TL; DR: 我非常简单的Spark Streaming应用程序在驱动程序中失败,并显示“ KafkaException:字符串超出最大大小”。我在执行程序中看到了相同的异常,但是我还在执行程序的日志中的某个地方发现了一个IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用Spark Streaming从Kafka主题中读取一些消息。 这 ..

错误:java.lang.IllegalArgumentException:即使使用替代方法,比较方法也违反了其常规协定

我已经花了两天时间来解决此错误,即使我尝试了一些替代方法,也都在一些stackoverflow帖子“ -Djava.util.Arrays.useLegacyMergeSort = true”中提出了建议,但是它也不起作用。 这是我命令的详细信息及其返回错误: 命令: hadoop jar CloudBrush.jar -Djava.awt.headless = true -D ..
发布时间:2020-10-03 00:28:33 Java开发

YARN应用程序已退出,退出代码为:-1000无法初始化用户目录

我得到: 应用程序application_1427711869990_0001由于AM容器两次失败,导致appattempt_1427711869990_0001_000002退出,退出代码为-1000,原因是:无法在用户kailash 的任何已配置本地目录中初始化用户目录。此尝试失败。 我找不到与该退出代码和相关原因有关的任何东西。我正在使用Hadoop 2.5.0(C ..
发布时间:2020-10-03 00:20:44 其他开发

客户端无法通过以下方式进行身份验证:[TOKEN,KERBEROS]

我正在使用YarnClient以编程方式开始工作。我正在运行的群集已使用kerberos化。 法线贴图减少了通过“ yarn jar examples.jar wordcount ...”提交的工作。 我要以编程方式提交的工作没有。我收到此错误: 14/09/04 21:14:29错误client.ClientService:在应用程序提交期间发生错误:Application a ..
发布时间:2020-10-03 00:20:40 其他开发

有没有办法在Spark中捕获执行程序杀死的异常?

在执行我的Spark程序期间,有时(它的原因对我来说仍然是个谜)纱线会杀死容器(执行程序),并发出消息,表明已超出内存限制.我的程序确实恢复了,尽管Spark通过产生一个新的容器重新执行了任务.但是,在我的程序中,一个任务还在磁盘上创建了一些中间文件.当杀死一个容器时,这些文件将被留下.有没有一种方法可以捕获被执行者杀死的异常,以便删除残留的中间文件.显然,异常处理代码也需要在执行程序运行所在的同 ..
发布时间:2020-09-04 09:01:54 其他开发

Spark中的虚拟内存如何计算?

我在Hadoop上使用Spark,想知道Spark如何将虚拟内存分配给执行程序. 根据YARN vmem-pmem,它为容器提供了2.1倍的虚拟内存. 因此-如果XMX为1GB,则-> 1 GB * 2.1 = 2.1 GB分配给了容器. 它在Spark上如何工作?下面的陈述是正确的吗? 如果我给Executor内存= 1 GB,那么 总虚拟内存= 1 GB * 2. ..
发布时间:2020-09-04 08:56:22 其他开发

Spark Yarn Memory配置

我有一个Spark应用程序,该应用程序始终因错误而失败: “诊断:容器[pid = 29328,containerID = container_e42_1512395822750_0026_02_000001]运行超出了物理内存限制.当前使用情况:使用了1.5 GB的1.5 GB物理内存;使用了2.3 GB的3.1 GB虚拟内存.正在杀死容器." 我看到许多建议更改以增加物理内存的不同 ..
发布时间:2020-09-04 08:51:14 其他开发