yarn - IT屋-程序员软件开发技术分享社区

在 yarn-cluster 上运行时 Spark ClassNotFoundException

我的代码: import org.apache.spark.{SparkConf, SparkContext}对象运行扩展应用程序{val conf = new SparkConf().setMaster("yarn-cluster").setAppName("t666")sc.addJar("hdfs://10.1.11.99:8020/user/spark/share/scalaj-http ..

发布时间：2021-07-15 21:26:08 scala apache-spark yarn 其他开发

如何恢复hdp

我有这个命令行来显示 YARN 策略: 结果是: {“身份证":131，"guid": "4d9c3257-0998-42ea-8506-f773a368430d",“已启用":真，“版本":2，"service": "Namecluster_yarn",}},“政策项目":[{“访问":[{“类型":“提交应用"，"isAllowed": 真}],“用户":[]，“组":[“Applic ..

发布时间：2021-07-09 19:52:54 shell rest yarn 其他开发

Pyspark:从存档中运行脚本

我有一个存档(基本上是捆绑的 conda 环境 + 我的应用程序)，我可以轻松地在纱线主模式下与 pyspark 一起使用: PYSPARK_PYTHON=./pkg/venv/bin/python3 \火花提交\--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \--master 纱线 \--deploy- ..

发布时间：2021-06-24 20:44:32 python pyspark yarn Python

Spark在本地运行但在YARN中运行时找不到文件

我一直在尝试提交一个简单的 python 脚本，以便在带有 YARN 的集群中运行它.当我在本地执行作业时，没有问题，一切正常，但是当我在集群中运行它时却失败了. 我使用以下命令执行提交: spark-submit --master yarn --deploy-mode cluster test.py 我收到的日志错误如下: 17/11/07 13:02:48 INFO yar ..

发布时间：2021-06-24 20:42:22 apache-spark pyspark yarn 其他开发

PySpark 内核(JupyterHub)可以在纱线客户端模式下运行吗?

我当前的设置: 使用 HDFS 和 YARN 的 Spark EC2 集群 JuputerHub(0.7.0) 使用 python27 的 PySpark 内核我用于这个问题的非常简单的代码: rdd = sc.parallelize([1, 2])rdd.collect() 在 Spark 独立版中按预期工作的 PySpark 内核在内核 json 文件中具有以下环境变量: ..

发布时间：2021-06-24 20:40:33 pyspark yarn jupyterhub spark-ec2 其他开发

spark.python.worker.memory 与 spark.executor.memory 有何关系?

这张图相当明确不同 YARN 和 Spark 内存相关设置之间的关系，除非涉及 spark.python.worker.memory. spark.python.worker.memory 如何适应这种内存模型? Python 进程是否由 spark.executor.memory 或 yarn.nodemanager.resource.memory-mb 管理? 更新这 ..

发布时间：2021-06-24 20:37:20 memory apache-spark pyspark yarn 其他开发

java.io.IOException:无效的BCFile

当我运行“纱线日志-applicationId application_1438080928000_6932"时，出现此异常: 线程“主"中的异常java.io.IOException:不是有效的BCFile.在org.apache.hadoop.io.file.tfile.BCFile $ Magic.readAndVerify(BCFile.java:927)在org.apache.hado ..

发布时间：2021-05-13 20:20:28 hadoop yarn 其他开发

YARN容器内存未反映在Java Xmx设置中

请帮助我理解我的理解或配置中的错误. 我在YARN上运行Spark，并在yarn-site.xml中将最小容器内存分配设置为8GB: yarn.scheduler.minimum-allocation-mb 8192 我可以在Resource Manager UI中看到此设置: ..

发布时间：2021-05-13 20:19:53 java apache-spark hadoop yarn Java开发

通过Java列出hadoop集群中的所有yarn应用程序

在我的hadoop集群上运行命令 yarn application -list 时，它返回正在运行的应用程序列表. 我想使用Java获取此列表. 当前我正在使用yarnClient API org.apache.hadoop hadoop-common ..

发布时间：2021-05-13 20:19:23 java hadoop yarn Java开发

Hadoop2- YARN-ApplicationMaster UI-连接被拒绝的问题

从RM WebUI(hadoop 2.6.0)访问ApplicationMaster UI时遇到以下问题.没有运行独立的WebProxy服务器.代理作为ResourceManager的一部分运行. "HTTP错误500存取/proxy/application_1431357703844_0004/时发生问题.原因:连接被拒绝" resourcemanager日志中的日志条目: 2015-05 ..

发布时间：2021-05-13 20:16:44 java hadoop yarn hadoop2 Java开发

“应用优先级"在纱线中

我正在使用Hadoop 2.9.0.是否可以在YARN中提交具有不同优先级的作业?根据JIRA的一些票证，似乎已经实现了应用程序优先级. 我尝试使用 YarnClient ，并在提交作业之前为 ApplicationSubmissionContext 设置了优先级.我还尝试使用CLI和 updateApplicationPriority .但是，似乎没有什么改变应用程序的优先级，它始终保持为 ..

发布时间：2021-05-13 20:16:31 hadoop yarn 其他开发

Hadoop 2.0 ApplicationMaster与NodeManager

我无法确定Hadoop 2.0架构中 ApplicationMaster 和 NodeManager 之间的区别. 我知道ApplicationMaster负责运行 map 和 reduce 任务，并且它通过与ResourceManager协调来检索容器以运行这些任务. 但是我对NodeManager的目的感到困惑.NodeManager是为ApplicationMaster创建容器( ..

发布时间：2021-05-13 20:15:38 hadoop yarn 其他开发

蜂巢中不存在auxService:mapreduce_shuffle

我正在使用hive 1.2.0和hadoop 2.6.0.每当我在计算机上运行配置单元时，...选择查询就可以正常工作，但是在 count(*)的情况下，它将显示以下错误: 此任务的诊断消息:容器启动失败container_1434646588807_0001_01_000005: org.apache.hadoop.yarn.exceptions.InvalidAuxServiceExce ..

发布时间：2021-05-13 20:15:29 hadoop hive hdfs yarn 其他开发

运行start-dfs.sh时出现权限被拒绝的错误

我在执行 start-dfs.sh 时遇到此错误在[localhost]上启动namenodespdsh @ Gaurav:本地主机:rcmd:套接字:权限被拒绝启动数据节点pdsh @ Gaurav:本地主机:rcmd:套接字:权限被拒绝启动辅助名称节点[Gaurav]pdsh @ Gaurav:Gaurav:rcmd:套接字:权限被拒绝2017-03-13 09:39:29,559WAR ..

发布时间：2021-05-13 20:15:13 sockets hadoop hdfs yarn hadoop2 其他开发

纱线上的火花:如何防止计划多个火花作业

纱线上有火花-我看不到一种方法来防止并发作业被调度.我有用于纯批处理的体系结构设置. 出于以下原因，我需要这样做: 资源约束用于火花的UserCache增长非常快.运行多个作业会导致缓存空间激增. 理想情况下，我很想看看是否有一个配置可以确保在Yarn上的任何时间都只能运行一项作业. 解决方案您可以运行一个创建队列，该队列只能托管一个应用程序主服务器，并在该队列上运 ..

发布时间：2021-04-08 20:10:00 apache-spark yarn 其他开发

将Apache Spark中的所有资源与Yarn一起使用

我正在将Apache Spark与Yarn客户端一起使用.我的Spark集群中有4台工作PC，每台PC都有8个vcpus和30 GB的内存.我将执行程序的内存设置为2G，将实例数设置为33.我的工作需要10个小时才能运行，所有机器都闲置了80％. 我不了解执行程序内存和执行程序实例之间的相关性.每个Vcpu是否应该有一个实例?我应该将执行程序的内存设置为每台机器上的机器/#executor的 ..

发布时间：2021-04-08 20:07:28 apache-spark yarn 其他开发

使用纱线，火花和火花-cassandra连接器时，如何解决番石榴的11.0.2和16.0之间的冲突?

我的毛线版本是 hadop-2.4.0.x ，spark是 spark-1.5.1-bin-hadoop2.4 ，spark-cassandra-connector是 spark-cassandra-connector_2.10-1.5.0-M2 : bin/spark-shell --driver-class-path $(echo lib/*.jar | sed's//:/g')--mas ..

发布时间：2021-04-08 20:02:13 apache-spark yarn spark-cassandra-connector 其他开发

Spark Dataset缓存仅使用一个执行程序

我有一个读取hive(parquet-snappy)表并构建2GB数据集的过程.这是一个迭代(〜7K)的过程，并且所有迭代该数据集都将是相同的，因此我决定缓存该数据集. 以某种方式仅在一个执行程序上完成缓存任务，并且似乎缓存仅在该一个执行程序上执行.导致延迟，OOM等. 是因为镶木地板吗?如何确保高速缓存分布在多个执行器上? 这是spark配置: 执行者:3 核心:4 ..

发布时间：2021-04-08 19:59:30 apache-spark yarn parquet 其他开发

如何在YARN群集中的特定节点上启动Spark的ApplicationMaster?

我有一个YARN群集，其中的一个主节点运行资源管理器，另外两个节点.我可以在“纱线群集"模式下从客户端计算机提交spark应用程序.有什么方法可以配置集群中的哪个节点启动Spark应用程序主服务器? 我之所以这样问，是因为如果应用程序主控器在主控节点中启动，则可以正常工作，但如果它在其他节点中启动，则可以得到此信息: 正在重试连接到服务器:0.0.0.0/0.0.0.0:8030 . ..

发布时间：2021-04-08 19:54:14 apache-spark yarn 其他开发

在纱线客户端模式下设置/运行火花(火花壳)

我正在尝试使YARN可以使用spark-shell，但是当我尝试运行如下代码时: spark-shell \-主纱-部署模式客户端\-驱动程序内存1克--executor内存1克--executor-cores 1 我得到的堆栈跟踪是: 07/02/07 01:52:41错误spark.SparkContext:初始化SparkContext时出错.org.apache.spark.S ..

发布时间：2021-04-08 19:53:40 apache-spark yarn 其他开发

yarn相关内容