yarn相关内容

如何恢复hdp

我有这个命令行来显示 YARN 策略: 结果是: {“身份证":131,"guid": "4d9c3257-0998-42ea-8506-f773a368430d",“已启用":真,“版本":2,"service": "Namecluster_yarn",}},“政策项目":[{“访问":[{“类型":“提交应用","isAllowed": 真}],“用户":[],“组":[“Applic ..
发布时间:2021-07-09 19:52:54 其他开发

Pyspark:从存档中运行脚本

我有一个存档(基本上是捆绑的 conda 环境 + 我的应用程序),我可以轻松地在纱线主模式下与 pyspark 一起使用: PYSPARK_PYTHON=./pkg/venv/bin/python3 \火花提交\--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \--master 纱线 \--deploy- ..
发布时间:2021-06-24 20:44:32 Python

Spark在本地运行但在YARN中运行时找不到文件

我一直在尝试提交一个简单的 python 脚本,以便在带有 YARN 的集群中运行它.当我在本地执行作业时,没有问题,一切正常,但是当我在集群中运行它时却失败了. 我使用以下命令执行提交: spark-submit --master yarn --deploy-mode cluster test.py 我收到的日志错误如下: 17/11/07 13:02:48 INFO yar ..
发布时间:2021-06-24 20:42:22 其他开发

java.io.IOException:无效的BCFile

当我运行“纱线日志-applicationId application_1438080928000_6932"时,出现此异常: 线程“主"中的异常java.io.IOException:不是有效的BCFile.在org.apache.hadoop.io.file.tfile.BCFile $ Magic.readAndVerify(BCFile.java:927)在org.apache.hado ..
发布时间:2021-05-13 20:20:28 其他开发

“应用优先级"在纱线中

我正在使用Hadoop 2.9.0.是否可以在YARN中提交具有不同优先级的作业?根据JIRA的一些票证,似乎已经实现了应用程序优先级. 我尝试使用 YarnClient ,并在提交作业之前为 ApplicationSubmissionContext 设置了优先级.我还尝试使用CLI和 updateApplicationPriority .但是,似乎没有什么改变应用程序的优先级,它始终保持为 ..
发布时间:2021-05-13 20:16:31 其他开发

Hadoop 2.0 ApplicationMaster与NodeManager

我无法确定Hadoop 2.0架构中 ApplicationMaster 和 NodeManager 之间的区别. 我知道ApplicationMaster负责运行 map 和 reduce 任务,并且它通过与ResourceManager协调来检索容器以运行这些任务. 但是我对NodeManager的目的感到困惑.NodeManager是为ApplicationMaster创建容器( ..
发布时间:2021-05-13 20:15:38 其他开发

蜂巢中不存在auxService:mapreduce_shuffle

我正在使用hive 1.2.0和hadoop 2.6.0.每当我在计算机上运行配置单元时,...选择查询就可以正常工作,但是在 count(*)的情况下,它将显示以下错误: 此任务的诊断消息:容器启动失败container_1434646588807_0001_01_000005: org.apache.hadoop.yarn.exceptions.InvalidAuxServiceExce ..
发布时间:2021-05-13 20:15:29 其他开发

运行start-dfs.sh时出现权限被拒绝的错误

我在执行 start-dfs.sh 时遇到此错误 在[localhost]上启动namenodespdsh @ Gaurav:本地主机:rcmd:套接字:权限被拒绝启动数据节点pdsh @ Gaurav:本地主机:rcmd:套接字:权限被拒绝启动辅助名称节点[Gaurav]pdsh @ Gaurav:Gaurav:rcmd:套接字:权限被拒绝2017-03-13 09:39:29,559WAR ..
发布时间:2021-05-13 20:15:13 其他开发

纱线上的火花:如何防止计划多个火花作业

纱线上有火花-我看不到一种方法来防止并发作业被调度.我有用于纯批处理的体系结构设置. 出于以下原因,我需要这样做: 资源约束 用于火花的UserCache增长非常快.运行多个作业会导致缓存空间激增. 理想情况下,我很想看看是否有一个配置可以确保在Yarn上的任何时间都只能运行一项作业. 解决方案 您可以运行一个创建队列,该队列只能托管一个应用程序主服务器,并在该队列上运 ..
发布时间:2021-04-08 20:10:00 其他开发

将Apache Spark中的所有资源与Yarn一起使用

我正在将Apache Spark与Yarn客户端一起使用.我的Spark集群中有4台工作PC,每台PC都有8个vcpus和30 GB的内存.我将执行程序的内存设置为2G,将实例数设置为33.我的工作需要10个小时才能运行,所有机器都闲置了80%. 我不了解执行程序内存和执行程序实例之间的相关性.每个Vcpu是否应该有一个实例?我应该将执行程序的内存设置为每台机器上的机器/#executor的 ..
发布时间:2021-04-08 20:07:28 其他开发

Spark Dataset缓存仅使用一个执行程序

我有一个读取hive(parquet-snappy)表并构建2GB数据集的过程.这是一个迭代(〜7K)的过程,并且所有迭代该数据集都将是相同的,因此我决定缓存该数据集. 以某种方式仅在一个执行程序上完成缓存任务,并且似乎缓存仅在该一个执行程序上执行.导致延迟,OOM等. 是因为镶木地板吗?如何确保高速缓存分布在多个执行器上? 这是spark配置: 执行者:3 核心:4 ..
发布时间:2021-04-08 19:59:30 其他开发

如何在YARN群集中的特定节点上启动Spark的ApplicationMaster?

我有一个YARN群集,其中的一个主节点运行资源管理器,另外两个节点.我可以在“纱线群集"模式下从客户端计算机提交spark应用程序.有什么方法可以配置集群中的哪个节点启动Spark应用程序主服务器? 我之所以这样问,是因为如果应用程序主控器在主控节点中启动,则可以正常工作,但如果它在其他节点中启动,则可以得到此信息: 正在重试连接到服务器:0.0.0.0/0.0.0.0:8030 . ..
发布时间:2021-04-08 19:54:14 其他开发

在纱线客户端模式下设置/运行火花(火花壳)

我正在尝试使YARN可以使用spark-shell,但是当我尝试运行如下代码时: spark-shell \-主纱-部署模式客户端\-驱动程序内存1克--executor内存1克--executor-cores 1 我得到的堆栈跟踪是: 07/02/07 01:52:41错误spark.SparkContext:初始化SparkContext时出错.org.apache.spark.S ..
发布时间:2021-04-08 19:53:40 其他开发