yarn相关内容

将自定义退出代码从yarn-cluster模式spark传递到CLI

我通过提交火花启动了纱线簇模式的火花作业. 为了指示部分失败等,我想将退出代码从驱动程序传递到调用spark-submit的脚本. 我同时尝试了System.exit和在驱动程序中抛出SparkUserAppException,但是在这两种情况下,CLI仅得到1,而不是我传递的退出代码. 我认为不可能传递自定义退出代码,因为驱动程序传递的任何退出代码都将转换为纱线状态,而纱线会将失败的 ..
发布时间:2020-09-04 07:58:05 其他开发

火花执行器的内存减少到1/2

我正在做这样的火花提交 spark-submit --class com.mine.myclass --master yarn-cluster --num-executors 3 --executor-memory 4G spark-examples_2.10-1.0.jar 在Web ui中,我可以看到确实有3个执行程序节点,但是每个节点都有2G的内存.当我设置--executor-memor ..
发布时间:2020-09-04 07:36:01 其他开发

为什么YARN上的驱动程序和执行程序的核心数量与请求的数量不同?

我通过以下方式在集群模式下部署Spark作业 驱动程序核心-1 执行器核心-2 执行者数量-2. 我的理解是,此应用程序应在集群中占据5个核心(4个执行者核心和1个驱动程序核心),但是我在RM和Spark UI中没有观察到这一点. 在资源管理器UI上,我仅看到此应用程序使用的4个内核. 即使在Spark UI中(在RM中单击ApplicationMaster URL),在“ ..
发布时间:2020-09-04 07:22:29 其他开发

"spark.yarn.executor.memoryOverhead"之间的区别和"spark.memory.offHeap.size";

我在纱线上生出火花.我不明白以下设置spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size之间有什么区别.两者似乎都是用于分配堆外内存以激发执行程序的设置.我应该使用哪一个?另外,对执行程序堆内存的推荐设置是什么? 非常感谢! 解决方案 spark.executor.memoryOverhead由YARN之类的资源管理 ..
发布时间:2020-09-04 07:21:15 其他开发

在Spark的客户端模式下,驱动程序需要对远程执行程序的网络访问吗?

在客户端模式下使用spark (例如yarn-client)时,运行驱动程序的本地计算机是否与运行远程执行程序的集群工作程序节点直接通信? 如果是,这是否意味着(运行驱动程序的)计算机需要对工作节点具有网络访问权限?那么主节点从群集请求资源,并将工作节点的IP地址/端口返回给驱动程序,以便驱动程序可以启动与工作节点的通信? 如果没有,客户端模式实际上如何工作? 如果是,这是否意味 ..
发布时间:2020-09-04 07:12:05 其他开发

通过Eclipse和Spark Context将spark应用作为纱线工作提交

我已经可以从Eclipse IDE提交local spark作业(用Scala编写).但是,我想修改我的Spark上下文(在我的应用程序内部),以便当我“运行"该应用程序(在Eclipse内部)时,该作业将使用Yarn作为资源管理器发送到我的远程集群. 使用spark-submit,我可以成功将作业提交给集群,如下所示: spark-submit --class - ..
发布时间:2020-09-04 07:03:51 其他开发

在纱线上产生火花,在/0.0.0.0:8032处连接到ResourceManager

我正在用Mac开发的机器上编写一个Spark程序. hadoop的版本是2.6,spark的版本是1.6.2. hadoop集群有3个节点,当然所有这些节点都在linux机器中. 我在思想IDE中以独立模式运行spark程序,它可以成功运行.但是现在,我将其更改为yarn-client模式,它无法成功运行,并显示以下消息: ... 2017-02-23 11:01:33,725-[HL] I ..
发布时间:2020-09-04 07:03:24 Java开发

纱线群集模式下的Pyspark

是否有任何方法可以在不使用spark-submit脚本的情况下以yarn-cluster模式运行pyspark脚本?我需要这种方式,因为我会将这段代码集成到Django Web应用程序中. 当我尝试在yarn-cluster模式下运行任何脚本时,出现以下错误: org.apache.spark.SparkException: Detected yarn-cluster mode, bu ..
发布时间:2020-09-04 06:56:51 其他开发

如何使用spark-submit为Spark作业选择队列?

是否可以提供参数或设置来选择希望运行spark_submit作业的队列? 解决方案 通过使用--queue 因此,火花提交作业的示例为:- spark-submit --master yarn --conf spark.executor.memory = 48G --conf spark.driver.memory = 6G --packages [以,分隔的软件包] --queue ..
发布时间:2020-09-04 06:22:07 其他开发

如何在Yarn上配置应用程序驱动程序的自动重启

来自Spark编程指南 要从驱动程序故障中自动恢复,用于运行流应用程序的部署基础结构必须监视驱动程序进程,并在驱动程序出现故障时重新启动.不同的集群管理器具有不同的工具来实现这一目标. Spark Standalon Spark Standalone -可以提交Spark应用程序驱动程序以在Spark Standalone群集中运行(请参阅群集部署模式),也就是说,该应用程序驱动 ..
发布时间:2020-09-04 06:20:52 其他开发

Spark/Yarn:HDFS上不存在文件

我在AWS上有一个Hadoop/Yarn集群设置,我有一个主服务器和3个从属服务器.我已验证我在端口50070和8088上运行了3个活动节点.我在客户端部署模式下测试了Spark作业,一切正常. 当我尝试使用./spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master yarn --deploy-mode cluster ip.py火花提交作业时 ..
发布时间:2020-09-04 06:17:59 其他开发

异常:java.lang.Exception:使用主"yarn"运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR.火花中

我是新的Apache火花.我已经在spark独立模式下测试了一些应用程序,但是我想运行应用程序yarn模式.我正在Windows中运行apache-spark 2.1.0.这是我的代码 c:\spark>spark-submit2 --master yarn --deploy-mode client --executor-cores 4 --jars C:\DependencyJars\sp ..
发布时间:2020-09-04 06:15:23 其他开发

SPARK:YARN杀死超出内存限制的容器

我们当前遇到的一个问题是,在YARN上运行时,Spark作业看到大量容器因超出内存限制而被杀死. 16/11/18 17:58:52 WARN TaskSetManager: Lost task 53.0 in stage 49.0 (TID 32715, XXXXXXXXXX): ExecutorLostFailure (executor 23 exited caused by on ..
发布时间:2020-09-04 06:08:38 其他开发

为什么由于连接被拒绝,YARN上的Spark应用程序失败并显示FetchFailedException?

我正在使用spark version 1.6.3,而yarn version 2.7.1.2.3随HDP-2.3.0.0-2557一起提供.因为,在我使用的HDP版本中,spark版本太旧了,我宁愿远程使用另一个spark作为纱线模式. 这是我运行spark shell的方式; ./spark-shell --master yarn-client 一切似乎都很好,sparkCont ..
发布时间:2020-09-04 06:08:34 其他开发

当部署在YARN中时,Apache Spark如何处理系统故障?

前提条件 我们假设使用YARN将Apache Spark部署在hadoop集群上.此外,正在执行火花. Spark如何处理下面列出的情况? 案例和&问题 hadoop群集的一个节点由于磁盘错误而发生故障.但是,复制足够高,并且不会丢失任何数据. 在该节点上运行的任务会发生什么? hadoop群集的一个节点由于磁盘错误而发生故障.复制不够不够高,并且数据丢失.只是spark ..
发布时间:2020-09-04 05:52:22 其他开发