yarn 第2页 - IT屋-程序员软件开发技术分享社区

纱线资源管理器中未显示Spark执行器核心

纱线资源管理器未显示spark应用程序的总核.例如，如果我们提交的Spark作业有300个执行者，而executor-cores是3.那么理想情况下，spark拥有900个核心，但在纱线资源管理器中仅显示300个核心. 那么这仅仅是显示错误，还是Yarn没有看到其余600个内核? 环境:HDP2.2调度程序:容量调度器火花:1.4.1 解决方案设置 yarn.sched ..

发布时间：2021-04-08 19:45:55 apache-spark yarn 其他开发

如何通过Spark应用程序获取内存和CPU使用率?

我想获取Spark作业的平均资源利用率以进行监视，请问如何轮询Spark应用程序的资源(即CPU和内存利用率)? 解决方案您必须从YARN中提取日志命令行:: yarn application -logs {YourAppID} 您可以从spark作业堆栈或 yarn application -list 命令或从UI.有关yarn命令的更多信息，请此处 FROM用户界面:如 ..

发布时间：2021-04-08 19:45:52 apache-spark yarn 其他开发

如何控制有多少执行程序在yarn-client模式下运行?

我有一个由5个节点组成的Hadoop集群，其中Spark在 yarn-client 模式下运行. 我使用-num-executors 作为执行者的数量.我最多可以得到20个执行者.即使我指定了更多的执行者，我也只能得到20个执行者. 可以分配的执行程序数量是否有上限?是配置还是根据可用资源做出决定? 解决方案显然，您的20个正在运行的执行程序消耗了所有可用内存.您可以尝试使用 ..

发布时间：2021-04-08 19:43:37 apache-spark yarn 其他开发

在YARN上运行Spark应用程序，无需提交火花

我知道可以使用 spark-submit --master yarn 在YARN上执行Spark应用程序. 问题是:是否可以使用 yarn 命令在纱线上运行Spark应用程序? 如果是这样，可以将YARN REST API用作以统一方式运行spark和MapReduce应用程序的接口. 解决方案我看到这个问题已经一岁了，但是对于任何偶然发现这个问题的人来说，现在看来应该可以这 ..

发布时间：2021-04-08 19:41:01 apache-spark yarn 其他开发

错误时纱线上的火花运行两次

我使用在纱线上产生火花的模型，当我遇到问题时，火花将自动重新启动. 无论成功或失败，我都希望准确运行一次. 是否可以设置任何conf或api? 我正在使用Spark 1.5版. 解决方案您必须将 spark.yarn.maxAppAttempts 属性设置为1.默认值为 yarn.resourcemanager.am..max-attempts ，默认为2. 通过 ..

发布时间：2021-04-08 19:40:40 apache-spark yarn 其他开发

为什么Spark(在Google Dataproc上)不使用所有vcore?

我正在Google DataProc集群上运行Spark作业.但是看起来Spark并未使用集群中所有可用的 vcores ，如下所示 ..

发布时间：2021-04-08 19:39:22 apache-spark pyspark yarn google-cloud-dataproc 其他开发

我怎么知道我的火花工作是否在进行中?

我有一个在 YARN 上运行的spark作业，它似乎挂起了，没有进行任何计算. 这是当我执行 yarn application -status 时yarn所说的: 应用报告:Application-Id:applicationID应用名称:测试应用应用程序类型:SPARK用户:ec2-user队列:默认开始时间:1491005660004结束时间:0进度: ..

发布时间：2021-04-08 19:39:14 apache-spark pyspark yarn 其他开发

获取"org.apache.spark.sql.AnalysisException:路径不存在"来自SparkSession.read()

我正在尝试读取由 spark-submit 提交到客户端模式下的纱线簇的文件.不能将文件放入HDFS.这是我所做的: def main(args:Array [String]){if(args！= null&& args.length> 0){val inputfile:字符串= args(0)//获取文件名:train.csvval input_filename = inputfile.sp ..

发布时间：2021-04-08 19:37:18 apache-spark yarn 其他开发

无法启动Spark历史记录服务器

我在纱线簇上运行火花.我试图启动历史记录服务器 ./start-history-server.sh 但出现以下错误. 启动org.apache.spark.deploy.history.HistoryServer，登录到/home/abc/spark/spark-1.5.1-bin-hadoop2.6/sbin/../logs/spark-abc-org.apache.spark.dep ..

发布时间：2021-04-08 19:35:49 apache-spark yarn pyspark 其他开发

pyspark中的--files选项不起作用

我从命令行尝试了 sc.addFile 选项(没有任何问题)和-files 选项(失败). 运行1:spark_distro.py 从pyspark 导入SparkContext，SparkConf从pyspark导入SparkFilesdef import_my_special_package(x):从external_package导入外部ext = external()返回ext. ..

发布时间：2021-04-08 19:32:14 apache-spark pyspark yarn 其他开发

Spark驱动程序内存和应用程序主内存

我是否正确理解了客户端模式的文档? 客户端模式与驱动程序在应用程序主服务器中运行的群集模式相对吗? 在客户端模式下，驱动程序和应用程序主控是独立的进程，因此 spark.driver.memory + spark.yarn.am.memory 必须小于计算机的内存? 在客户端模式下，驱动程序内存是否不包括在应用程序主内存设置中? 解决方案客户端模式与驱动程序在应用程序主服务 ..

发布时间：2021-04-08 19:31:49 apache-spark hadoop yarn 其他开发

在Farn on Yarn上与Kafka并行

我试图在我的Flink工作中与我的Kafka源代码保持并行，但是到目前为止我还是失败了. 我为Kafka生产者设置了4个分区: $ ./bin/kafka-topics.sh --describe --zookeeper X.X.X.X:2181 --topic mytopic主题:mytopic PartitionCount:4复制因子:1配置:主题:mytopic分区:0领导者:0复 ..

发布时间：2021-04-08 18:37:42 scala apache-kafka yarn apache-flink 其他开发

无法在Amazon EMR中使用Apache Flink

我无法在Amazon EMR中启动Apache Flink的yarn session.我收到的错误消息是 $ tar xvfj flink-0.9.0-bin-hadoop26.tgz$ cd flink-0.9.0$ ./bin/yarn-session.sh -n 4 -jm 1024 -tm 4096...诊断:文件文件:/home/hadoop/.flink/application_1 ..

发布时间：2021-04-08 18:33:14 yarn emr amazon-emr apache-flink 其他开发

Spark Shell停留在YARN接受状态

在纱线和EMR上运行Spark 1.3.1.当我运行spark-shell时，一切看起来都很正常，直到我开始看到诸如 INFO yarn.Client:application_1439330624449_1561的应用程序报告(状态:ACCEPTED)之类的消息.这些消息是每秒无休止地生成的.同时，我无法使用Spark外壳. 我不明白为什么会这样. 解决方案意识到我在终端中杀死了一 ..

发布时间：2021-04-03 19:10:36 hadoop apache-spark yarn emr 其他开发

YARN在运行Spark作业时不会基于公平份额抢占资源

我在YARN 公平预定队列. 对于测试，我已经将Hadoop 2.6(也尝试2.7)配置为在伪分布式模式下与MacOS上的本地HDFS一起运行.对于作业提交，使用了来自 Spark网站的“针对Hadoop 2.6及更高版本的Pre-build Spark 1.4"(也尝试过1.5)分发. 使用Hadoop MapReduce作业的基本配置进行测试时，Fair Scheduler会按预期 ..

发布时间：2021-02-12 19:29:28 hadoop apache-spark yarn job-scheduling 其他开发

IntelliJ中的独立Spark应用程序

我正在尝试在本地服务器上运行Spark应用程序(用Scala编写)以进行调试.看来YARN是我在sbt构建定义中使用的spark(2.2.1)版本中的默认设置，并且根据我不断得到的错误，没有spark/YARN服务器在监听: Client:920 - Failed to connect to server: 0.0.0.0/0.0.0.0:8032: retries get failed d ..

发布时间：2020-11-29 21:58:05 apache-spark intellij-idea yarn 其他开发

启动执行程序时，Spark on yarn是否处理数据局部性

我正在考虑火花执行器的静态分配. 启动执行程序时，Spark on yarn是否考虑了在Spark应用程序中使用的原始输入数据集的数据局部性. 如果它确实做到了这一点，那么将在初始化Spark上下文时请求并分配Spark执行器. Spark应用程序可能会使用多个原始输入数据集，这些原始数据集实际上可能驻留在许多不同的数据节点上.我们不能在所有这些节点上运行执行程序. 我了解spark在 ..

发布时间：2020-11-22 19:24:03 apache-spark hdfs yarn 其他开发

YARN Dr.who应用程序尝试appattempt失败

我在hadoop集群中收到此错误消息.有人可以解释我为什么吗? 不知何故，更多的2000作业应用程序正在创建并且失败. 解决方案这可能是黑客...有一个加密货币矿工可以创建成千上万的工作. 在每个可疑节点上检查cron作业是否为纱线，然后将其删除. $ sudo -u yarn crontab -e */2 * * * * wget -q -O - http://18 ..

发布时间：2020-11-22 19:21:13 hadoop hdfs yarn 其他开发

spark2 + yarn-准备AM容器时为nullpointerexception

我正在尝试 pyspark --master yarn 火花版本:2.0.0 Hadoop版本:2.7.2 Hadoop纱线Web界面是成功启动会发生这种情况: 16/08/15 10:00:12 DEBUG Client: Using the default MR application classpath: $HADOOP_MAPRED_HOME/share/ha ..

发布时间：2020-11-22 03:04:38 apache-spark pyspark yarn hadoop2 其他开发

运行mapreduce hadoop作业时，纱线UI中未显示应用程序?

我正在使用Hadoop2.2.我看到我的工作成功完成了.我可以浏览文件系统以找到输出.但是，当我浏览http://NNode:8088/cluster/apps时，无法看到到目前为止已完成的任何应用程序(我运行了3个wordcount作业，但此处未显示任何作业). 是否需要考虑任何配置? 这是yarn-site.xml yarn. ..

发布时间：2020-11-22 03:02:24 yarn hadoop2 其他开发

yarn相关内容