yarn 第4页 - IT屋-程序员软件开发技术分享社区

GCP Dataproc-配置YARN公平调度程序

我试图建立一个dataproc集群，该集群一次只能计算一个作业(或指定的最大作业)，其余的将在队列中. 我找到了此解决方案，如何配置垄断FIFO YARN中的应用程序队列?，但是由于我总是在创建一个新集群，因此需要使它自动化.我已将其添加到集群创建中: "softwareConfig": { "properties": { "yarn:yarn.resource ..

发布时间：2020-11-18 02:05:17 google-cloud-platform yarn google-cloud-dataproc 其他开发

Github操作，使用npm或yarn安装Github软件包时，未经授权401

当我尝试通过GitHub动作安装npm模块时，出现以下错误: npm ERR! 401 Unauthorized - GET https://npm.pkg.github.com/@xxxx%2fxxxx-analytics - Your request could not be authenticated by the GitHub Packages service. Please ens ..

发布时间：2020-11-15 19:11:58 github npm yarn github-actions github-package-registry 其他开发

Hadoop HDFS不能平均分配数据块

我当前正在运行一个具有2个节点的集群. 1个节点是主/从节点，另一个是从节点.我有一个文件，并将块大小设置为该文件大小的一半.然后我 hdfs dfs -put file / 文件被复制到HDFS没问题，但是当我检查HDFS站点时，我看到创建的两个块都在一个datanode中(这些块在我使用-put命令的datanode上).我什至尝试调用均衡器脚本，但两个块仍在同一数据节点上. ..

发布时间：2020-11-06 04:23:20 hadoop filesystems hdfs yarn 其他开发

纱线堆的使用量随时间增长

我们在AWS EMR上运行Spark Streaming作业。该作业将稳定运行10到14个小时，然后崩溃，并且stderr，stdout或Cloudwatch日志中没有明显的错误。在此崩溃之后，任何尝试重新启动作业的尝试都会立即失败，并显示“无法分配内存”（errno = 12）（完整的消息）。对Cloudwatch指标和Ganglia的调查均显示 driver.jvm.heap.used ..

发布时间：2020-10-29 05:29:55 apache-spark heap spark-streaming yarn emr 其他开发

Spark在WholeTextFiles上创建的分区少于minPartitions

我有一个包含14个文件的文件夹。我在具有10个执行程序的群集上运行spark-submit，该群集的资源管理器为yarn。我按以下方式创建第一个RDD： JavaPairRDD files = sc.wholeTextFiles（folderPath.toString（），10）; 但是， files.getNumPartition ..

发布时间：2020-10-22 19:01:00 apache-spark hdfs yarn distributed-computing partitioning 其他开发

YARN上的Spark：执行程序内存少于通过spark-submit设置的执行程序内存

我在具有以下设置的YARN群集（HDP 2.4）中使用Spark： 1个主节点 64 GB RAM（可用48 GB） 12核（可用8核） 5个从节点每个64 GB RAM（可用48 GB）每个12核（可用8核） YARN设置（一个主机的）所有容器的内存：48 GB 最小容器大小=最大容器大小= 6 GB 集群中的vcore = 40（5 x 8个工 ..

发布时间：2020-10-08 21:08:40 apache-spark containers yarn hortonworks-data-platform executor 其他开发

在YARN群集中的特定节点上运行我自己的应用程序母版

首先，我正在使用Hadoop-2.6.0。我想在YARN群集中的特定节点上启动我自己的应用程序主机，以便在预定的IP地址和端口上打开服务器。为此，我编写了一个驱动程序，在其中创建了一个 ResourceRequest 对象，并调用了 setResourceName 方法来设置主机名，并将其附加到 ApplicationSubmissionContext setAMContainerResource ..

发布时间：2020-10-08 21:07:47 hadoop containers yarn 其他开发

Hadoop多节点集群太慢。如何提高数据处理速度？

我有一个6节点群集-5 DN和1 NN。全部都有32 GB RAM。所有从站均具有8.7 TB硬盘。 DN具有1.1 TB硬盘。这是我的 core-site.xml 的链接， hdfs-site.xml ， yarn-site.xml 。运行MR作业后，我检查了我的RAM用法，如下所述： Namenode 免费-g 已使用的总计免费共享buff /缓存可用内存：31 7 1 ..

发布时间：2020-10-03 02:39:48 hadoop cluster-computing yarn hadoop2 其他开发

Spark Streaming应用程序失败，出现KafkaException：字符串超出最大大小或IllegalArgumentException

TL; DR：我非常简单的Spark Streaming应用程序在驱动程序中失败，并显示“ KafkaException：字符串超出最大大小”。我在执行程序中看到了相同的异常，但是我还在执行程序的日志中的某个地方发现了一个IllegalArgumentException，其中没有其他信息完整问题：我正在使用Spark Streaming从Kafka主题中读取一些消息。这 ..

发布时间：2020-10-03 00:28:35 apache-kafka spark-streaming yarn cloudera-cdh apache-spark-1.6 其他开发

错误：java.lang.IllegalArgumentException：即使使用替代方法，比较方法也违反了其常规协定

我已经花了两天时间来解决此错误，即使我尝试了一些替代方法，也都在一些stackoverflow帖子“ -Djava.util.Arrays.useLegacyMergeSort = true”中提出了建议，但是它也不起作用。这是我命令的详细信息及其返回错误：命令： hadoop jar CloudBrush.jar -Djava.awt.headless = true -D ..

发布时间：2020-10-03 00:28:33 java hadoop yarn cloudera-cdh Java开发

YARN应用程序已退出，退出代码为：-1000无法初始化用户目录

我得到：应用程序application_1427711869990_0001由于AM容器两次失败，导致appattempt_1427711869990_0001_000002退出，退出代码为-1000，原因是：无法在用户kailash 的任何已配置本地目录中初始化用户目录。此尝试失败。我找不到与该退出代码和相关原因有关的任何东西。我正在使用Hadoop 2.5.0（C ..

发布时间：2020-10-03 00:20:44 cloudera yarn 其他开发

客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]

我正在使用YarnClient以编程方式开始工作。我正在运行的群集已使用kerberos化。法线贴图减少了通过“ yarn jar examples.jar wordcount ...”提交的工作。我要以编程方式提交的工作没有。我收到此错误： 14/09/04 21:14:29错误client.ClientService：在应用程序提交期间发生错误：Application a ..

发布时间：2020-10-03 00:20:40 hadoop cloudera yarn kerberos-delegation 其他开发

Windows 2008 R2 x64上的Hadoop 2.3.0关于NodeManager的信息

大家，最近，我使用Cygwin64，Maven，JDK1.7x64和hadoop 2.3.0 Src在Windows 2008 r2 x64上构建了程序包，并且构建成功. 最后，我设置了hdfs-site.xml，yarn-site.xml，core-site.xml和mapred-site.xml的所有参数. 我继续格式化namenode并执行start-dfs.cmd，namenode ..

发布时间：2020-09-20 00:46:21 java batch-file hadoop yarn Java开发

使用Spark和Yarn进行资源分配

我在纱客户端模式下使用Zeppelin 0.7.3和Spark 2.3. 我的设置是: 火花: spark.driver.memory 4096m spark.driver.memoryOverhead 3072m spark.executor.memory 4096m spark.executor.memoryOverhea ..

发布时间：2020-09-04 23:35:59 apache-spark yarn apache-zeppelin 其他开发

自定义spark在纱线上运行时找不到蜂巢数据库

按照# download a current headless version of spark export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/conf export SPARK_HOME=>/spark-2.4.3-bi ..

发布时间：2020-09-04 21:51:08 apache-spark hive apache-spark-sql yarn hdp 其他开发

找不到JDBC驱动程序-从Spark提交到YARN时

尝试从数据库表中读取所有行，并将其写入另一个空目标表.因此，当我在主节点上发出以下命令时，它会按预期工作- $./bin/spark-submit --class cs.TestJob_publisherstarget --driver-class-path ./lib/mysql-connector-java-5.1.35-bin.jar --jars ./lib/mysql-connec ..

发布时间：2020-09-04 20:31:21 apache-spark yarn apache-spark-sql 其他开发

火花故障:由以下原因引起:org.apache.spark.shuffle.FetchFailedException:框架太大:5454002341

我正在为确定父级孩子的表生成层次结构. 以下是所使用的配置，即使在出现有关太大框架的错误之后: 火花属性 --conf spark.yarn.executor.memoryOverhead=1024mb \ --conf yarn.nodemanager.resource.memory-mb=12288mb \ --driver-memory 32g \ --driver-cor ..

发布时间：2020-09-04 19:39:01 apache-spark apache-spark-sql yarn 其他开发

有没有办法在Spark中捕获执行程序杀死的异常?

在执行我的Spark程序期间，有时(它的原因对我来说仍然是个谜)纱线会杀死容器(执行程序)，并发出消息，表明已超出内存限制.我的程序确实恢复了，尽管Spark通过产生一个新的容器重新执行了任务.但是，在我的程序中，一个任务还在磁盘上创建了一些中间文件.当杀死一个容器时，这些文件将被留下.有没有一种方法可以捕获被执行者杀死的异常，以便删除残留的中间文件.显然，异常处理代码也需要在执行程序运行所在的同 ..

发布时间：2020-09-04 09:01:54 apache-spark bigdata yarn 其他开发

Spark中的虚拟内存如何计算?

我在Hadoop上使用Spark，想知道Spark如何将虚拟内存分配给执行程序. 根据YARN vmem-pmem，它为容器提供了2.1倍的虚拟内存. 因此-如果XMX为1GB，则-> 1 GB * 2.1 = 2.1 GB分配给了容器. 它在Spark上如何工作?下面的陈述是正确的吗? 如果我给Executor内存= 1 GB，那么总虚拟内存= 1 GB * 2. ..

发布时间：2020-09-04 08:56:22 apache-spark yarn hadoop2 其他开发

Spark Yarn Memory配置

我有一个Spark应用程序，该应用程序始终因错误而失败: “诊断:容器[pid = 29328，containerID = container_e42_1512395822750_0026_02_000001]运行超出了物理内存限制.当前使用情况:使用了1.5 GB的1.5 GB物理内存；使用了2.3 GB的3.1 GB虚拟内存.正在杀死容器." 我看到许多建议更改以增加物理内存的不同 ..

发布时间：2020-09-04 08:51:14 apache-spark yarn 其他开发

yarn相关内容