yarn相关内容
我试图建立一个dataproc集群,该集群一次只能计算一个作业(或指定的最大作业),其余的将在队列中. 我找到了此解决方案,如何配置垄断FIFO YARN中的应用程序队列?,但是由于我总是在创建一个新集群,因此需要使它自动化.我已将其添加到集群创建中: "softwareConfig": { "properties": { "yarn:yarn.resource
..
当我尝试通过GitHub动作安装npm模块时,出现以下错误: npm ERR! 401 Unauthorized - GET https://npm.pkg.github.com/@xxxx%2fxxxx-analytics - Your request could not be authenticated by the GitHub Packages service. Please ens
..
我当前正在运行一个具有2个节点的集群. 1个节点是主/从节点,另一个是从节点.我有一个文件,并将块大小设置为该文件大小的一半.然后我 hdfs dfs -put file / 文件被复制到HDFS没问题,但是当我检查HDFS站点时,我看到创建的两个块都在一个datanode中(这些块在我使用-put命令的datanode上).我什至尝试调用均衡器脚本,但两个块仍在同一数据节点上.
..
我们在AWS EMR上运行Spark Streaming作业。该作业将稳定运行10到14个小时,然后崩溃,并且stderr,stdout或Cloudwatch日志中没有明显的错误。在此崩溃之后,任何尝试重新启动作业的尝试都会立即失败,并显示“无法分配内存”(errno = 12)(完整的消息)。 对Cloudwatch指标和Ganglia的调查均显示 driver.jvm.heap.used
..
我有一个包含14个文件的文件夹。我在具有10个执行程序的群集上运行spark-submit,该群集的资源管理器为yarn。 我按以下方式创建第一个RDD: JavaPairRDD files = sc.wholeTextFiles(folderPath.toString(),10); 但是, files.getNumPartition
..
我在具有以下设置的YARN群集(HDP 2.4)中使用Spark: 1个主节点 64 GB RAM(可用48 GB) 12核(可用8核) 5个从节点 每个64 GB RAM(可用48 GB) 每个12核(可用8核) YARN设置 (一个主机的)所有容器的内存:48 GB 最小容器大小=最大容器大小= 6 GB 集群中的vcore = 40(5 x 8个工
..
首先,我正在使用Hadoop-2.6.0。我想在YARN群集中的特定节点上启动我自己的应用程序主机,以便在预定的IP地址和端口上打开服务器。为此,我编写了一个驱动程序,在其中创建了一个 ResourceRequest 对象,并调用了 setResourceName 方法来设置主机名,并将其附加到 ApplicationSubmissionContext setAMContainerResource
..
我有一个6节点群集-5 DN和1 NN。全部都有32 GB RAM。所有从站均具有8.7 TB硬盘。 DN具有1.1 TB硬盘。这是我的 core-site.xml 的链接, hdfs-site.xml , yarn-site.xml 。 运行MR作业后,我检查了我的RAM用法,如下所述: Namenode 免费-g 已使用的总计免费共享buff /缓存可用 内存:31 7 1
..
TL; DR: 我非常简单的Spark Streaming应用程序在驱动程序中失败,并显示“ KafkaException:字符串超出最大大小”。我在执行程序中看到了相同的异常,但是我还在执行程序的日志中的某个地方发现了一个IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用Spark Streaming从Kafka主题中读取一些消息。 这
..
我已经花了两天时间来解决此错误,即使我尝试了一些替代方法,也都在一些stackoverflow帖子“ -Djava.util.Arrays.useLegacyMergeSort = true”中提出了建议,但是它也不起作用。 这是我命令的详细信息及其返回错误: 命令: hadoop jar CloudBrush.jar -Djava.awt.headless = true -D
..
我得到: 应用程序application_1427711869990_0001由于AM容器两次失败,导致appattempt_1427711869990_0001_000002退出,退出代码为-1000,原因是:无法在用户kailash 的任何已配置本地目录中初始化用户目录。此尝试失败。 我找不到与该退出代码和相关原因有关的任何东西。我正在使用Hadoop 2.5.0(C
..
我正在使用YarnClient以编程方式开始工作。我正在运行的群集已使用kerberos化。 法线贴图减少了通过“ yarn jar examples.jar wordcount ...”提交的工作。 我要以编程方式提交的工作没有。我收到此错误: 14/09/04 21:14:29错误client.ClientService:在应用程序提交期间发生错误:Application a
..
大家, 最近,我使用Cygwin64,Maven,JDK1.7x64和hadoop 2.3.0 Src在Windows 2008 r2 x64上构建了程序包,并且构建成功. 最后,我设置了hdfs-site.xml,yarn-site.xml,core-site.xml和mapred-site.xml的所有参数. 我继续格式化namenode并执行start-dfs.cmd,namenode
..
我在纱客户端模式下使用Zeppelin 0.7.3和Spark 2.3. 我的设置是: 火花: spark.driver.memory 4096m spark.driver.memoryOverhead 3072m spark.executor.memory 4096m spark.executor.memoryOverhea
..
按照# download a current headless version of spark export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/conf export SPARK_HOME=>/spark-2.4.3-bi
..
尝试从数据库表中读取所有行,并将其写入另一个空目标表.因此,当我在主节点上发出以下命令时,它会按预期工作- $./bin/spark-submit --class cs.TestJob_publisherstarget --driver-class-path ./lib/mysql-connector-java-5.1.35-bin.jar --jars ./lib/mysql-connec
..
我正在为确定父级孩子的表生成层次结构. 以下是所使用的配置,即使在出现有关太大框架的错误之后: 火花属性 --conf spark.yarn.executor.memoryOverhead=1024mb \ --conf yarn.nodemanager.resource.memory-mb=12288mb \ --driver-memory 32g \ --driver-cor
..
在执行我的Spark程序期间,有时(它的原因对我来说仍然是个谜)纱线会杀死容器(执行程序),并发出消息,表明已超出内存限制.我的程序确实恢复了,尽管Spark通过产生一个新的容器重新执行了任务.但是,在我的程序中,一个任务还在磁盘上创建了一些中间文件.当杀死一个容器时,这些文件将被留下.有没有一种方法可以捕获被执行者杀死的异常,以便删除残留的中间文件.显然,异常处理代码也需要在执行程序运行所在的同
..
我在Hadoop上使用Spark,想知道Spark如何将虚拟内存分配给执行程序. 根据YARN vmem-pmem,它为容器提供了2.1倍的虚拟内存. 因此-如果XMX为1GB,则-> 1 GB * 2.1 = 2.1 GB分配给了容器. 它在Spark上如何工作?下面的陈述是正确的吗? 如果我给Executor内存= 1 GB,那么 总虚拟内存= 1 GB * 2.
..
我有一个Spark应用程序,该应用程序始终因错误而失败: “诊断:容器[pid = 29328,containerID = container_e42_1512395822750_0026_02_000001]运行超出了物理内存限制.当前使用情况:使用了1.5 GB的1.5 GB物理内存;使用了2.3 GB的3.1 GB虚拟内存.正在杀死容器." 我看到许多建议更改以增加物理内存的不同
..