hadoop-yarn相关内容
我在开发期间一直在“客户端”模式下运行我的Spark作业。我使用“--file”与执行器共享配置文件。驱动程序正在本地读取配置文件。现在,我想在“集群”模式下部署作业。我现在无法与驱动程序共享配置文件。 例如,我将配置文件名作为Extra Java Options传递给驱动程序和执行器。我正在使用SparkFiles.get()读取文件 val configFile = org.a
..
我是Hadoop的新手,我正在尝试使用Hadoop-3.1.2设置伪分布式模式执行。 当我尝试启动纱线服务时,我收到以下错误,请参见下面的代码片段。 $ sbin/start-yarn.sh Starting resourcemanagers on [] localhost: ERROR: Cannot set priority of resourcemanager process 132
..
如何传递参数?当我运行“纱线生成”时,它将创建一个“-p”目录和一个“测试”目录。但当我在bash中运行“mkdir-p test”时,它运行得很好。我也尝试了[-p],但它只创建了该目录。 "scripts": { "generate": "mkdir -p test" } 推荐答案 虽然我无法重现您提到的问题(我的配置:node v8.11.1和yarn v1.2.
..
我在应用程序主机中使用了同步AMRMClient,使用AMRMClient的addContainerRequest方法添加容器请求,使用AMRMClient的getMatchingRequest和emoveContainerRequest方法删除容器请求。然而,当程序添加具有不同资源容器请求时,资源管理器不再为应用主机分配任何资源,从而导致死锁。有没有人曾经遇到过这样的问题? 推荐答案
..
运行更大的纱线作业(Hadoop版本HDP-3.1.0.0(3.1.0.0-78))的主要限制是什么?我如何增加它?基本上,我希望同时执行更多(所有都很大)的SQOOP作业。 我目前假设我需要增加资源管理器堆的大小(因为当我运行纱线作业时,这就是我在Ambari仪表板上看到的)。如何将更多资源添加到RM堆/为什么RM堆似乎只占可用总RAM的一小部分(用于纱线?)跨群集? 查看Ambar
..
我在纱线集群模式下使用Spark-Submit运行一个Spark作业。为了在运行时提交输入和输出文件路径,我尝试加载一个包含输入和输出路径的属性文件。 属性文件:input.properties spark.myapp.input /input/path spark.myapp.output /output/path 我正在使用以下命令运行我的应用程序。
..
我注意到一些奇怪的行为,我有一个Spark作业,它读取数据,执行一些分组排序和联接,并创建一个输出文件。 问题是,当我在超过环境的内存上运行相同的作业时,例如,集群有50 GB,而我提交的Spark-Submit的执行器内存和4 GB驱动内存接近60 GB。 我的结果减少似乎是某个数据分区或任务在处理时丢失。 driver-memory 4g --executor-memory 4g
..
我已经在GIT上问过这个问题(https://github.com/akeneo/pim-community-dev/issues/7191) 但不幸的是,还没有人回复我,以为我会试一试。 我跟进akeneo-Install-Instruction(pim-Community-Standard-v2.0) https://docs.akeneo.com/latest/install_pim/ma
..
我在客户端模式下对Sink运行Spark,因此我预计Sink将只为Executor分配容器。然而,从我所看到的情况来看,似乎还为驱动程序分配了一个容器,而我没有得到我预期的那么多执行器。 我在主节点上运行Spark Submit。参数如下: sudo spark-submit --class ... --conf spark.master=yarn --conf s
..
我有一个关于阿帕奇Spark的一般性问题: 我们有一些消费Kafka消息的火花流脚本。 问题:它们随机失败,没有出现特定错误... 当我手动运行某些脚本时,它们在工作时什么也不做,其中一个脚本失败,并显示以下消息: 错误SparkUI:绑定SparkUI失败 Java.net.BindException:地址已在使用中:服务‘SparkUI’在16次重试后失败! 所以我想知
..
我的纱线容器内存不足: 此特定容器运行一个Apache-Spark驱动程序节点。 我不理解的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存,增量为0.5 GB。此外,我托管纱线容器的物理机器每台都有32 GB。我通
..
在代码中指定Spark应用程序配置是否有区别或优先级: SparkConf().setMaster(yarn) 并在命令行中指定它们 spark-submit --master yarn 推荐答案 是,在用户代码中使用set()函数为配置赋予最高优先级。在那之后,旗帜闪闪发光地过去了。 直接在SparkConf上设置的属性具有最高优先级,然后将标志传递给Spark-
..
根据纱线v2的纱线安装,他们希望您使用npm install -g yarn进行安装。所以我在Ubuntu 20.04上运行了sudo npm install -g yarn。但在我执行此操作后,系统显示未找到命令。 ❯ sudo npm install -g yarn > yarn@1.22.10 preinstall /usr/local/lib/node_modules/yarn >
..
我编写了一些Scala代码,代码如下所示。 object myScalaApp { def main(args: Array[String]) : Unit = { val strJson = args.apply(0) println( "strJson : " + strJson) 并从纱线调用此Scala JAR文件。 Process
..
我有一个正在运行的Spark应用程序,它占据了我的其他应用程序不会被分配任何资源的所有核心。 我做了一些快速的研究,人们建议使用SLEAN KILL或/bin/Spark-class来终止命令。但是,我使用的是CDH版本,/bin/spark-class根本不存在,纱线杀死应用程序也不起作用。 有人能和我一起拿这个吗? 推荐答案 从Spark Scheduler复制粘贴应用
..
对于在纱线(纱线客户端)上运行的电光作业,是否可以使用hdfs中的jar指定类路径 有点像使用Map Reduce作业: DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案 来自SparkContext文档: defaddJar(路径:string)
..
我是 YARN 上的 Spark 新手,不了解 YARN Containers 和 Spark Executors 之间的关系.我根据 yarn-utils.py 脚本的结果尝试了以下配置,可用于找到最佳集群配置. 我正在开发的 Hadoop 集群 (HDP 2.4): 1 个主节点: CPU:2 个 CPU,每个 CPU 6 个内核 = 12 个内核 内存:64 GB SSD:
..
在启用本机内存跟踪的情况下运行 Java 应用程序(在 YARN 中)时(-XX:NativeMemoryTracking=detail,请参阅 https://docs.oracle.com/javase/8/docs/technotes/guides/vm/nmt-8.html 和 https://docs.oracle.com/javase/8/docs/technotes/guides/t
..
我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时,会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0,状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a
..
我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second
..