yarn相关内容
我正在从我的开发机器启动spark-submit。 我试图在Hadoop集群上使用spark submit在YARN模式上启动spark任务。 p> 根据运行Spark在YARN 文档中,我应该为env var HADOOP_CONF_DIR 或 YARN_CONF_DIR 。这就是棘手的问题:如果我将任务发送到远程YARN服务,为什么这些文件夹必须存在于本地计算机上?这是否意味着spar
..
我们正在使用yarn作为资源管理器运行Spark Streaming作业,注意到这两个目录在数据节点上已经满了,而当我们只运行几分钟的时候,我们的空间不足了。 / tmp / hadoop / data / nm-local-dir / filecache $ b $ p 这些目录不会自动清除,因为我的研究发现需要设置此属性 yarn.nodemanager.localizer.ca
..
我试图在Ubuntu 13.10 64位上设置最新的Hadoop 2.2单节点群集。操作系统是全新的安装,并且我尝试了使用java-6 64位和java-7 64位。 按照这个,失败后从这个链接,我无法使用以下命令启动 nodemanager 和 resourcemanager : sbin / yarn-daemon.sh start nodemanager sudo sbin
..
我正在尝试使用Spark提交在Spark群集上运行一个胖jar。 我在AWS上使用Spark包中的“spark-ec2”可执行文件创建了集群。 我用来运行jar文件的命令是 bin / spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big -data-hw2-assem
..
30GB内存 4个vCPU 以下是我在调整群集性能时发现的很重要的一些配置(来自Google)。我正在运行: yarn.nodemanager.resource.cpu-vcores = > 4 yarn.nodemanager.resource.memory-mb => 17GB(为操作系统和其他进程保留) > mapreduce.map.memory.mb => 2GB m
..
我试图使用YARN REST API来提交spark-submit作业,这通常是通过命令行运行的。 我的命令行spark-submit looks像这样 $ b $ pre $ JAVA_HOME = / usr / local / java7 / HADOOP_CONF_DIR = / etc / hadoop / conf / usr / local / spark- 1.5 / bi
..
是否有可能向纱线群集提交点火作业,并且可以通过命令行或罐子内部选择哪个用户将“拥有”该作业? spark-submit将从包含用户的脚本启动。 PS:如果集群具有kerberos配置(并且脚本为keytab )? 解决方案 对于非kerberized集群: export HADOOP_USER_NAME =在提交Spark作业之前,zorro 会执行该操作。 事后如果您想
..
我已经在xml文件中启用了日志: yarn-site.xml ,并且我重新开始 yarn : sudo service hadoop-yarn-resourcemanager restart sudo服务hadoop-yarn-nodemanager restart 我运行了我的应用程序,然后在中找到 applicationID code> yarn applica
..
我试图在scala sbt应用程序中使用spark,而不是直接使用 spark-submit 。 我已经有一个远程纱线群正在运行,并且我可以连接到SparkR中的纱线群运行点火作业。但是当我尝试在scala应用程序中做类似的事情时,它无法将我的环境变量加载到纱线配置中,而是使用默认纱线地址和端口。 sbt应用程序只是一个简单的对象: object simpleSparkApp
..
我是hadoop的新手,这是我的问题。我在3台机器的簇上配置了hadoop 2.4.0和jdk1.7.60。我能够执行hadoop的所有命令。现在我修改了wordcount示例并创建了jar文件。我已经在hadoop 1.2.1上执行了这个jar文件并得到了结果。但现在在hadoop 2.4.0上我没有收到任何结果。 用于执行的命令 $ hadoop jar WordCount.ja
..
我想尝试在YARN中设置内存,所以我会尝试在yarn-site.xml和mapred-site.xml中配置一些参数。顺便说一句,我使用hadoop 2.6.0。但是,当我执行mapreduce作业时出现错误。它是这样说的: 15/03/12 10:57:23信息mapreduce.Job:任务ID: attempt_1426132548565_0001_m_000002_0,状态:FA
..
我正在提出一个关于Spark的非常愚蠢的问题,因为我想澄清我的困惑。如果我有一个我想要的输入文件列表(假定为1000),我想在Spark中非常新,并且仍然试图了解它在内部是如何工作的。 处理或写入某处,我想使用coalesce将我的分区数量减少到100个。 现在我运行12个执行程序,每个执行程序5个内核,即60任务运行时。这是否意味着,每个任务都可以在单个分区上独立运行? $ b
..
我是一个火花/纱线新手,当我在纱线群上提交一个点火作业时,碰到exitCode = 13。当火花作业在本地模式下运行时,一切正常。 我使用的命令是: / usr / hdp / current / spark-client / bin / spark-submit --class com.test.sparkTest - 主线 - 部署模式集群--num-executors 40
..
hadoop job -list 似乎只显示mapreduce作业,但是我的资源管理器UI为所有正在运行的作业显示“Allocated CPU VCores”和“Allocated Memory MB” (包括诸如Spark和Tez之类的东西)。 如何通过命令行获取这些结果而不是访问UI? $ b $解决方案 YARN支持不同类型的应用程序。 “MapReduce”是YARN支持的一种应用
..
我用Yarn下载了Hadoop的CDH4 tar,作业运行良好,但我无法弄清楚从我的工作中查看日志的位置。在MRv1中,我只是去了JobTracker网络应用程序,它有工作的历史。个人作业的日志也可以从这里访问,或者转到日志/用户日志目录。 在我的新Yarn设置中(仅在单台计算机上运行),我有日志目录,但没有日志/用户日志文件夹。 当我进入ResourceManager网页localh
..
我在单台机器上设置Hadoop 2.5.0,我遇到了未运行的datanode问题,如jps命令的输出所示: $ 3404 $ $ $ $ $ 2661 NodeManager 2606 ResourceManager 2484 NameNode 当我尝试手动运行时,我得到了这个结果: $ HADOOP_HOME / sbin / hadoop-daemon
..
我正在使用Hadoop 2.3.0版本。有时当我执行Map Reduce作业时,会显示下面的错误。 14/08/10 12:14:59信息mapreduce.Job:任务ID:attempt_1407694955806_0002_m_000780_0,状态:FAILED 错误:java.io.IOException:所有datanodes 192.168.30.2:50010都不好。正在
..
我努力为我的Amazon EMR群集启用YARN日志聚合。我正在关注这个配置文件: http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-debugging.html#emr-plan-debugging-logs-归档 在标题为“使用AWS CLI在Amazon S3中汇总日志”的部分下。
..
在我们的YARN集群中,有80%已满,我们看到一些纱线节点管理员被标记为“不健康”。在挖掘日志之后,我发现它是因为磁盘空间占用了数据目录的90%的空间。出现以下错误: 2015-02-21 08:33:51,590 INFO org.apache.hadoop.yarn.server.resourcemanager。 rmnode.RMNodeImpl:节点hdp009.abc.com:8
..
任何人都可以请我指导Apache Hadoop Yarn示例的源代码。 2.2.0发行版带有jar名称hadoop-mapreduce-examples-2.2.0.jar。我正在尝试查找示例的源代码。 任何指针都会有帮助... 谢谢,Amit 解决方案 div> 你看过SVN中的源代码吗?这里是。 http://svn.apache .org / viewvc / hadoop
..