hadoop-yarn相关内容

在集群模式下与Spark-Submit共享配置文件

我在开发期间一直在“客户端”模式下运行我的Spark作业。我使用“--file”与执行器共享配置文件。驱动程序正在本地读取配置文件。现在,我想在“集群”模式下部署作业。我现在无法与驱动程序共享配置文件。 例如,我将配置文件名作为Extra Java Options传递给驱动程序和执行器。我正在使用SparkFiles.get()读取文件 val configFile = org.a ..
发布时间:2022-08-08 17:34:31 其他开发

Hadoop:无法设置资源管理器进程的优先级

我是Hadoop的新手,我正在尝试使用Hadoop-3.1.2设置伪分布式模式执行。 当我尝试启动纱线服务时,我收到以下错误,请参见下面的代码片段。 $ sbin/start-yarn.sh Starting resourcemanagers on [] localhost: ERROR: Cannot set priority of resourcemanager process 132 ..
发布时间:2022-07-16 21:39:35 其他开发

带参数的纱线运行脚本

如何传递参数?当我运行“纱线生成”时,它将创建一个“-p”目录和一个“测试”目录。但当我在bash中运行“mkdir-p test”时,它运行得很好。我也尝试了[-p],但它只创建了该目录。 "scripts": { "generate": "mkdir -p test" } 推荐答案 虽然我无法重现您提到的问题(我的配置:node v8.11.1和yarn v1.2. ..
发布时间:2022-04-15 18:03:59 其他开发

纱线资源管理器在请求具有不同资源的容器时没有分配容器

我在应用程序主机中使用了同步AMRMClient,使用AMRMClient的addContainerRequest方法添加容器请求,使用AMRMClient的getMatchingRequest和emoveContainerRequest方法删除容器请求。然而,当程序添加具有不同资源容器请求时,资源管理器不再为应用主机分配任何资源,从而导致死锁。有没有人曾经遇到过这样的问题? 推荐答案 ..
发布时间:2022-04-15 18:02:48 其他开发

运行更大的纱线作业的主要限制是什么?我如何增加它?

运行更大的纱线作业(Hadoop版本HDP-3.1.0.0(3.1.0.0-78))的主要限制是什么?我如何增加它?基本上,我希望同时执行更多(所有都很大)的SQOOP作业。 我目前假设我需要增加资源管理器堆的大小(因为当我运行纱线作业时,这就是我在Ambari仪表板上看到的)。如何将更多资源添加到RM堆/为什么RM堆似乎只占可用总RAM的一小部分(用于纱线?)跨群集? 查看Ambar ..
发布时间:2022-04-15 18:01:27 其他开发

如何在火花纱簇模式下使用--属性-文件选项加载额外的火花属性?

我在纱线集群模式下使用Spark-Submit运行一个Spark作业。为了在运行时提交输入和输出文件路径,我尝试加载一个包含输入和输出路径的属性文件。 属性文件:input.properties spark.myapp.input /input/path spark.myapp.output /output/path 我正在使用以下命令运行我的应用程序。 ..
发布时间:2022-04-15 17:59:54 其他开发

Spark-app根据不同的执行器内存返回不同的结果?

我注意到一些奇怪的行为,我有一个Spark作业,它读取数据,执行一些分组排序和联接,并创建一个输出文件。 问题是,当我在超过环境的内存上运行相同的作业时,例如,集群有50 GB,而我提交的Spark-Submit的执行器内存和4 GB驱动内存接近60 GB。 我的结果减少似乎是某个数据分区或任务在处理时丢失。 driver-memory 4g --executor-memory 4g ..
发布时间:2022-04-15 17:58:10 其他开发

Spark客户端模式-纱线为驱动程序分配容器?

我在客户端模式下对Sink运行Spark,因此我预计Sink将只为Executor分配容器。然而,从我所看到的情况来看,似乎还为驱动程序分配了一个容器,而我没有得到我预期的那么多执行器。 我在主节点上运行Spark Submit。参数如下: sudo spark-submit --class ... --conf spark.master=yarn --conf s ..
发布时间:2022-04-15 17:54:33 其他开发

Spark:多个Spark-并行提交

我有一个关于阿帕奇Spark的一般性问题: 我们有一些消费Kafka消息的火花流脚本。 问题:它们随机失败,没有出现特定错误... 当我手动运行某些脚本时,它们在工作时什么也不做,其中一个脚本失败,并显示以下消息: 错误SparkUI:绑定SparkUI失败 Java.net.BindException:地址已在使用中:服务‘SparkUI’在16次重试后失败! 所以我想知 ..
发布时间:2022-04-15 17:52:50 其他开发

纱线容器内存不足

我的纱线容器内存不足: 此特定容器运行一个Apache-Spark驱动程序节点。 我不理解的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存,增量为0.5 GB。此外,我托管纱线容器的物理机器每台都有32 GB。我通 ..
发布时间:2022-04-15 17:51:37 Java开发

火花配置优先级

在代码中指定Spark应用程序配置是否有区别或优先级: SparkConf().setMaster(yarn) 并在命令行中指定它们 spark-submit --master yarn 推荐答案 是,在用户代码中使用set()函数为配置赋予最高优先级。在那之后,旗帜闪闪发光地过去了。 直接在SparkConf上设置的属性具有最高优先级,然后将标志传递给Spark- ..
发布时间:2022-04-15 17:50:26 其他开发

如何杀死正在运行的Spark应用程序?

我有一个正在运行的Spark应用程序,它占据了我的其他应用程序不会被分配任何资源的所有核心。 我做了一些快速的研究,人们建议使用SLEAN KILL或/bin/Spark-class来终止命令。但是,我使用的是CDH版本,/bin/spark-class根本不存在,纱线杀死应用程序也不起作用。 有人能和我一起拿这个吗? 推荐答案 从Spark Scheduler复制粘贴应用 ..
发布时间:2022-04-15 17:42:40 其他开发

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业,是否可以使用hdfs中的jar指定类路径 有点像使用Map Reduce作业: DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案 来自SparkContext文档: defaddJar(路径:string) ..
发布时间:2022-02-27 17:54:43 其他开发

Spark on YARN 资源管理器:YARN Containers 和 Spark Executors 之间的关系

我是 YARN 上的 Spark 新手,不了解 YARN Containers 和 Spark Executors 之间的关系.我根据 yarn-utils.py 脚本的结果尝试了以下配置,可用于找到最佳集群配置. 我正在开发的 Hadoop 集群 (HDP 2.4): 1 个主节点: CPU:2 个 CPU,每个 CPU 6 个内核 = 12 个内核 内存:64 GB SSD: ..

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..
发布时间:2022-01-14 08:10:50 其他开发