yarn相关内容
我的代码: import org.apache.spark.{SparkConf, SparkContext}对象运行扩展应用程序{val conf = new SparkConf().setMaster("yarn-cluster").setAppName("t666")sc.addJar("hdfs://10.1.11.99:8020/user/spark/share/scalaj-http
..
我有这个命令行来显示 YARN 策略: 结果是: {“身份证":131,"guid": "4d9c3257-0998-42ea-8506-f773a368430d",“已启用":真,“版本":2,"service": "Namecluster_yarn",}},“政策项目":[{“访问":[{“类型":“提交应用","isAllowed": 真}],“用户":[],“组":[“Applic
..
我有一个存档(基本上是捆绑的 conda 环境 + 我的应用程序),我可以轻松地在纱线主模式下与 pyspark 一起使用: PYSPARK_PYTHON=./pkg/venv/bin/python3 \火花提交\--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \--master 纱线 \--deploy-
..
我一直在尝试提交一个简单的 python 脚本,以便在带有 YARN 的集群中运行它.当我在本地执行作业时,没有问题,一切正常,但是当我在集群中运行它时却失败了. 我使用以下命令执行提交: spark-submit --master yarn --deploy-mode cluster test.py 我收到的日志错误如下: 17/11/07 13:02:48 INFO yar
..
我当前的设置: 使用 HDFS 和 YARN 的 Spark EC2 集群 JuputerHub(0.7.0) 使用 python27 的 PySpark 内核 我用于这个问题的非常简单的代码: rdd = sc.parallelize([1, 2])rdd.collect() 在 Spark 独立版中按预期工作的 PySpark 内核在内核 json 文件中具有以下环境变量:
..
这张图相当明确不同 YARN 和 Spark 内存相关设置之间的关系,除非涉及 spark.python.worker.memory. spark.python.worker.memory 如何适应这种内存模型? Python 进程是否由 spark.executor.memory 或 yarn.nodemanager.resource.memory-mb 管理? 更新 这
..
当我运行“纱线日志-applicationId application_1438080928000_6932"时,出现此异常: 线程“主"中的异常java.io.IOException:不是有效的BCFile.在org.apache.hadoop.io.file.tfile.BCFile $ Magic.readAndVerify(BCFile.java:927)在org.apache.hado
..
请帮助我理解我的理解或配置中的错误. 我在YARN上运行Spark,并在yarn-site.xml中将最小容器内存分配设置为8GB: yarn.scheduler.minimum-allocation-mb 8192 我可以在Resource Manager UI中看到此设置:
..
在我的hadoop集群上运行命令 yarn application -list 时,它返回正在运行的应用程序列表. 我想使用Java获取此列表. 当前我正在使用yarnClient API org.apache.hadoop hadoop-common
..
从RM WebUI(hadoop 2.6.0)访问ApplicationMaster UI时遇到以下问题.没有运行独立的WebProxy服务器.代理作为ResourceManager的一部分运行. "HTTP错误500存取/proxy/application_1431357703844_0004/时发生问题.原因:连接被拒绝" resourcemanager日志中的日志条目: 2015-05
..
我正在使用Hadoop 2.9.0.是否可以在YARN中提交具有不同优先级的作业?根据JIRA的一些票证,似乎已经实现了应用程序优先级. 我尝试使用 YarnClient ,并在提交作业之前为 ApplicationSubmissionContext 设置了优先级.我还尝试使用CLI和 updateApplicationPriority .但是,似乎没有什么改变应用程序的优先级,它始终保持为
..
我无法确定Hadoop 2.0架构中 ApplicationMaster 和 NodeManager 之间的区别. 我知道ApplicationMaster负责运行 map 和 reduce 任务,并且它通过与ResourceManager协调来检索容器以运行这些任务. 但是我对NodeManager的目的感到困惑.NodeManager是为ApplicationMaster创建容器(
..
我正在使用hive 1.2.0和hadoop 2.6.0.每当我在计算机上运行配置单元时,...选择查询就可以正常工作,但是在 count(*)的情况下,它将显示以下错误: 此任务的诊断消息:容器启动失败container_1434646588807_0001_01_000005: org.apache.hadoop.yarn.exceptions.InvalidAuxServiceExce
..
我在执行 start-dfs.sh 时遇到此错误 在[localhost]上启动namenodespdsh @ Gaurav:本地主机:rcmd:套接字:权限被拒绝启动数据节点pdsh @ Gaurav:本地主机:rcmd:套接字:权限被拒绝启动辅助名称节点[Gaurav]pdsh @ Gaurav:Gaurav:rcmd:套接字:权限被拒绝2017-03-13 09:39:29,559WAR
..
纱线上有火花-我看不到一种方法来防止并发作业被调度.我有用于纯批处理的体系结构设置. 出于以下原因,我需要这样做: 资源约束 用于火花的UserCache增长非常快.运行多个作业会导致缓存空间激增. 理想情况下,我很想看看是否有一个配置可以确保在Yarn上的任何时间都只能运行一项作业. 解决方案 您可以运行一个创建队列,该队列只能托管一个应用程序主服务器,并在该队列上运
..
我正在将Apache Spark与Yarn客户端一起使用.我的Spark集群中有4台工作PC,每台PC都有8个vcpus和30 GB的内存.我将执行程序的内存设置为2G,将实例数设置为33.我的工作需要10个小时才能运行,所有机器都闲置了80%. 我不了解执行程序内存和执行程序实例之间的相关性.每个Vcpu是否应该有一个实例?我应该将执行程序的内存设置为每台机器上的机器/#executor的
..
我的毛线版本是 hadop-2.4.0.x ,spark是 spark-1.5.1-bin-hadoop2.4 ,spark-cassandra-connector是 spark-cassandra-connector_2.10-1.5.0-M2 : bin/spark-shell --driver-class-path $(echo lib/*.jar | sed's//:/g')--mas
..
我有一个读取hive(parquet-snappy)表并构建2GB数据集的过程.这是一个迭代(〜7K)的过程,并且所有迭代该数据集都将是相同的,因此我决定缓存该数据集. 以某种方式仅在一个执行程序上完成缓存任务,并且似乎缓存仅在该一个执行程序上执行.导致延迟,OOM等. 是因为镶木地板吗?如何确保高速缓存分布在多个执行器上? 这是spark配置: 执行者:3 核心:4
..
我有一个YARN群集,其中的一个主节点运行资源管理器,另外两个节点.我可以在“纱线群集"模式下从客户端计算机提交spark应用程序.有什么方法可以配置集群中的哪个节点启动Spark应用程序主服务器? 我之所以这样问,是因为如果应用程序主控器在主控节点中启动,则可以正常工作,但如果它在其他节点中启动,则可以得到此信息: 正在重试连接到服务器:0.0.0.0/0.0.0.0:8030 .
..
我正在尝试使YARN可以使用spark-shell,但是当我尝试运行如下代码时: spark-shell \-主纱-部署模式客户端\-驱动程序内存1克--executor内存1克--executor-cores 1 我得到的堆栈跟踪是: 07/02/07 01:52:41错误spark.SparkContext:初始化SparkContext时出错.org.apache.spark.S
..