yarn相关内容

如何在Spark 1.2.0中将配置文件添加到所有Spark执行程序的类路径中?

我正在使用Typesafe Config( https://github.com/typesafehub/config )来参数化正在运行的Spark作业在纱线群集模式下使用配置文件. Typesafe Config的默认行为是在类路径中搜索名称与正则表达式匹配的资源,并使用ConfigFactory.load()自动将它们加载到配置类中(出于我们的目的,假定它查找的文件称为application ..
发布时间:2020-07-12 05:22:30 其他开发

EMR中的资源优化/利用,可用于长时间运行的作业和多个小型运行的作业

我的用例: 我们有一个运行时间很长的Spark工作.在此之后,称为 LRJ .这项工作每周运行一次. 我们有多个随时可以执行的小型运行作业.这些 作业比长期运行的作业具有更高的优先级. 为解决此问题,我们如下创建了YARN队列: 创建了用于资源管理的YARN队列.为长时间运行的作业配置了Q1队列,为小型运行的作业配置了Q2队列. Config: Q1 : cap ..

Hadoop:指定distcp的yarn队列

在我们的集群上,我们建立了动态​​资源池. 设置规则,以便第一个纱线将查看指定的队列,然后是用户名,然后是主要组... 但是对于 distcp ,我似乎无法能够指定一个队列,只需将其设置为主要组即可. 这是我现在运行它的方式(不起作用): hadoop distcp -Dmapred.job.queue.name:root.default ....... 解决方案 ..
发布时间:2020-06-11 19:46:12 其他开发

为什么启动我的pyspark时它会像接受的那样悬挂在纱线上?

我只是在 Linux 中启动了一个新的 AWS 实例。并且,我在上面安装了 pyspark 。它具有 spark 1.6 。 我正在运行 pyspark 和 yarn 。当我在终端中执行命令 pyspark 时,它首先启动,但随后我收到消息: dd / mm / YY HH:MM:SS INFO纱线客户:application_XXXXXXXXXXX_XXXX的申请报告(状态:已接受 ..
发布时间:2020-06-04 00:52:39 其他开发

Oozie/yarn:src文件系统上的资源已更改

我有一个Oozie工作流程,其步骤之一是java步骤,运行存储在本地文件系统上的jar(该jar存在于所有节点上). 最初,jar是通过RPM安装的,因此它们都具有相同的时间戳. 在进行试验时,我在此jar上手动复制了一个新版本,现在我收到消息: org.apache.oozie.action.ActionExecutorException: JA009: org.apache. ..
发布时间:2020-05-20 18:30:48 其他开发

Oozie Shell动作记忆限制

我们有一个带有外壳操作的oozie工作流程,该操作比默认情况下由Yarn给出的地图任务需要更多的内存. 我们如何给它更多的存储空间? 我们尝试将以下配置添加到操作中: mapreduce.map.memory.mb 6144 ..
发布时间:2020-05-20 18:30:33 其他开发

Spark中的并发作业执行

我使用了以下格式的输入数据: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasource 我已使用以下代码段使用多个线程将RDD保存为文本文件: package org.apache.spark.examples; import java.io.Serializable; import java ..
发布时间:2020-05-13 22:55:08 Java开发

Spark Metrics:如何访问执行程序和工作程序数据?

注意:我在YARN上使用Spark 我一直在尝试在Spark中实施的指标系统 .我启用了ConsoleSink和CsvSink,并为所有四个实例(驱动程序,主机,执行程序,工作程序)启用了JvmSource.但是,我只有驱动程序输出,而控制台和csv目标目录中没有worker/executor/master数据. 在阅读了这个问题之后,我想知道我是否必须提交工作时,将东西运送给执行者. ..
发布时间:2020-05-09 19:12:45 其他开发

如何在Windows机器上设置Spark集群?

我正在尝试在Windows计算机上设置Spark集群. 去这里的方法是使用独立模式,对吗? 不使用Mesos或YARN的具体缺点是什么?使用其中任何一种会带来多大的痛苦?有人在这里有经验吗? 解决方案 仅供参考,我在用户组中得到了答案:独立模式确实是必经之路. Mesos可能无法在Windows和YARN下运行. ..
发布时间:2020-05-09 01:10:16 其他开发

当在Spark中运行大连接时,我让执行器运行超出内存限制

在Spark上进行大联接时,我在驱动程序中遇到以下错误. 我们有3个节点,内存为32GB,联接的总输入大小为150GB. (当输入文件大小为50GB时,同一个应用程序可以正常运行) 我将storage.memoryFraction设置为0.2,并将shuffle.memoryFraction设置为0.2.但仍然会继续遇到运行中的物理极限错误. 15/04/07 19:58:17 ..
发布时间:2020-05-08 20:02:04 Java开发

在我们的发现集群中提高纱线容器利用率的建议

当前设置 我们有10个节点的发现集群. 该群集的每个节点都有24个核心和264 GB内存,为后台进程保留一些内存和CPU,我们计划使用240 GB内存. 现在,在容器设置方面,由于每个容器可能需要1个核心,因此,我们最多可以有24个容器,每个容器具有10GB内存. 通常,群集的容器具有1-2 GB的内存,但是我们受限于我们拥有的可用核心,或者我可能缺少某些东西 问题陈述 由 ..
发布时间:2020-05-05 15:51:07 其他开发

普通身份验证失败:没有为用户模拟配置任何模拟.模拟用户:alluxio mapreduce中的root

由以下原因引起:org.apache.thrift.transport.TTransportException:普通身份验证失败:没有为用户模拟配置用户纱.模拟用户:root 当我使用alluxio在本地运行wordcount程序时,它可以正常工作.我还通过了集成测试,但是当我使用alluxio客户端jar运行相同的Hadoop程序时 它给了我一个错误 bin/hadoop jar / ..
发布时间:2020-05-05 15:49:14 其他开发

MR工作各个阶段的顺序正确吗?

我试图了解MR Job经历的各个阶段.我阅读了相同的在线文档. 基于此,我对序列的理解如下: map()->分区程序->排序(在mapper机器上)->随机播放->排序(在reducer机器上)-> groupBy(Key)(在reducer机器上)-> reduce() 这是执行MR作业的正确顺序吗? 解决方案 地图的各个阶段都会减少工作量: 地图阶段: 从 ..
发布时间:2020-05-05 15:48:48 其他开发

无法为任务tryId NNN分配容器

我试图了解容器如何根据不同的硬件配置在YARN中分配内存及其性能. 因此,该机器有30 GB RAM,我为YARN选择了24 GB,为系统保留6 GB. yarn.nodemanager.resource.memory-mb=24576 然后,我跟随 http ://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_inst ..
发布时间:2020-05-05 15:48:20 其他开发

如何在yarn中更改tmp目录

我写了一个MR作业,并使用以下配置设置在本地模式下运行它 mapred.local.dir=> fs.default.name=file:/// mapred.job.tracker=local 在Hadoop 1.x上 现在我正在使用Hadoop 2.x,并且使用相同的Configurat ..
发布时间:2020-05-05 15:47:37 其他开发

Hadoop YARN作业卡在地图0%处并减少0%

我试图运行一个非常简单的作业来测试我的hadoop设置,所以我尝试使用Word Count Example,它被卡在0%内,所以我尝试了其他一些简单的作业,而每个作业都被卡住 52191_0003/ 14/07/14 23:55:51 INFO mapreduce.Job: Running job: job_1405376352191_0003 14/07/14 23:55:57 INFO ..
发布时间:2020-05-05 15:47:20 其他开发