yarn 第12页 - IT屋-程序员软件开发技术分享社区

Spark提交YARN模式的HADOOP_CONF_DIR内容

我正在从我的开发机器启动spark-submit。我试图在Hadoop集群上使用spark submit在YARN模式上启动spark任务。 p> 根据运行Spark在YARN 文档中，我应该为env var HADOOP_CONF_DIR 或 YARN_CONF_DIR 。这就是棘手的问题：如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于本地计算机上？这是否意味着spar ..

发布时间：2018-05-31 19:38:31 hadoop apache-spark yarn 分布式计算/Hadoop

纱线：自动清除文件缓存& usercache

我们正在使用yarn作为资源管理器运行Spark Streaming作业，注意到这两个目录在数据节点上已经满了，而当我们只运行几分钟的时候，我们的空间不足了。 / tmp / hadoop / data / nm-local-dir / filecache $ b $ p 这些目录不会自动清除，因为我的研究发现需要设置此属性 yarn.nodemanager.localizer.ca ..

发布时间：2018-05-31 19:37:50 hadoop spark-streaming yarn 分布式计算/Hadoop

Hadoop Nodemanager和Resourcemanager无法启动

我试图在Ubuntu 13.10 64位上设置最新的Hadoop 2.2单节点群集。操作系统是全新的安装，并且我尝试了使用java-6 64位和java-7 64位。按照这个，失败后从这个链接，我无法使用以下命令启动 nodemanager 和 resourcemanager ： sbin / yarn-daemon.sh start nodemanager sudo sbin ..

发布时间：2018-05-31 19:36:19 hadoop bigdata yarn ubuntu-13.10 分布式计算/Hadoop

Spark提交问题

我正在尝试使用Spark提交在Spark群集上运行一个胖jar。我在AWS上使用Spark包中的“spark-ec2”可执行文件创建了集群。我用来运行jar文件的命令是 bin / spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big -data-hw2-assem ..

发布时间：2018-05-31 19:35:04 hadoop amazon-web-services apache-spark yarn 分布式计算/Hadoop

纱线：如何利用完整的集群资源？

30GB内存 4个vCPU 以下是我在调整群集性能时发现的很重要的一些配置（来自Google）。我正在运行： yarn.nodemanager.resource.cpu-vcores = > 4 yarn.nodemanager.resource.memory-mb => 17GB（为操作系统和其他进程保留） > mapreduce.map.memory.mb => 2GB m ..

发布时间：2018-05-31 19:34:59 hadoop yarn cloudera 分布式计算/Hadoop

YARN REST API - Spark作业提交

我试图使用YARN REST API来提交spark-submit作业，这通常是通过命令行运行的。我的命令行spark-submit looks像这样 $ b $ pre $ JAVA_HOME = / usr / local / java7 / HADOOP_CONF_DIR = / etc / hadoop / conf / usr / local / spark- 1.5 / bi ..

发布时间：2018-05-31 19:34:49 hadoop apache-spark yarn 分布式计算/Hadoop

Spark将其作为另一个用户提交给纱线

是否有可能向纱线群集提交点火作业，并且可以通过命令行或罐子内部选择哪个用户将“拥有”该作业？ spark-submit将从包含用户的脚本启动。 PS：如果集群具有kerberos配置（并且脚本为keytab ）？解决方案对于非kerberized集群： export HADOOP_USER_NAME =在提交Spark作业之前，zorro 会执行该操作。事后如果您想 ..

发布时间：2018-05-31 19:33:07 hadoop apache-spark yarn kerberos 分布式计算/Hadoop

为什么我的纱线应用程序即使启用了日志记录也没有日志？

我已经在xml文件中启用了日志： yarn-site.xml ，并且我重新开始 yarn ： sudo service hadoop-yarn-resourcemanager restart sudo服务hadoop-yarn-nodemanager restart 我运行了我的应用程序，然后在中找到 applicationID code> yarn applica ..

发布时间：2018-05-31 19:31:33 hadoop apache-spark logging yarn 分布式计算/Hadoop

将Yarn群集配置添加到Spark应用程序

我试图在scala sbt应用程序中使用spark，而不是直接使用 spark-submit 。我已经有一个远程纱线群正在运行，并且我可以连接到SparkR中的纱线群运行点火作业。但是当我尝试在scala应用程序中做类似的事情时，它无法将我的环境变量加载到纱线配置中，而是使用默认纱线地址和端口。 sbt应用程序只是一个简单的对象： object simpleSparkApp ..

发布时间：2018-05-31 19:31:27 scala hadoop apache-spark yarn 分布式计算/Hadoop

无法在hadoop 2.4.0上运行MapReduce作业

我是hadoop的新手，这是我的问题。我在3台机器的簇上配置了hadoop 2.4.0和jdk1.7.60。我能够执行hadoop的所有命令。现在我修改了wordcount示例并创建了jar文件。我已经在hadoop 1.2.1上执行了这个jar文件并得到了结果。但现在在hadoop 2.4.0上我没有收到任何结果。用于执行的命令 $ hadoop jar WordCount.ja ..

发布时间：2018-05-31 19:29:11 java hadoop mapreduce yarn Java开发

为什么YARN java堆空间内存错误？

我想尝试在YARN中设置内存，所以我会尝试在yarn-site.xml和mapred-site.xml中配置一些参数。顺便说一句，我使用hadoop 2.6.0。但是，当我执行mapreduce作业时出现错误。它是这样说的： 15/03/12 10:57:23信息mapreduce.Job：任务ID： attempt_1426132548565_0001_m_000002_0，状态：FA ..

发布时间：2018-05-31 19:29:08 java hadoop mapreduce heap yarn Java开发

Spark与执行程序和内核的数量相关联

我正在提出一个关于Spark的非常愚蠢的问题，因为我想澄清我的困惑。如果我有一个我想要的输入文件列表（假定为1000），我想在Spark中非常新，并且仍然试图了解它在内部是如何工作的。处理或写入某处，我想使用coalesce将我的分区数量减少到100个。现在我运行12个执行程序，每个执行程序5个内核，即60任务运行时。这是否意味着，每个任务都可以在单个分区上独立运行？ $ b ..

发布时间：2018-05-31 19:24:39 hadoop apache-spark yarn 分布式计算/Hadoop

Spark在Yarn集群上运行exitCode = 13：

我是一个火花/纱线新手，当我在纱线群上提交一个点火作业时，碰到exitCode = 13。当火花作业在本地模式下运行时，一切正常。我使用的命令是： / usr / hdp / current / spark-client / bin / spark-submit --class com.test.sparkTest - 主线 - 部署模式集群--num-executors 40 ..

发布时间：2018-05-31 19:22:49 scala hadoop apache-spark yarn 分布式计算/Hadoop

YARN shell命令获取正在运行的应用程序使用的容器和vcore的数量

hadoop job -list 似乎只显示mapreduce作业，但是我的资源管理器UI为所有正在运行的作业显示“Allocated CPU VCores”和“Allocated Memory MB” （包括诸如Spark和Tez之类的东西）。如何通过命令行获取这些结果而不是访问UI？ $ b $解决方案 YARN支持不同类型的应用程序。 “MapReduce”是YARN支持的一种应用 ..

发布时间：2018-05-31 19:21:58 hadoop yarn 分布式计算/Hadoop

如何使用CDH4和Yarn查看我的Hadoop作业历史记录和日志？

我用Yarn下载了Hadoop的CDH4 tar，作业运行良好，但我无法弄清楚从我的工作中查看日志的位置。在MRv1中，我只是去了JobTracker网络应用程序，它有工作的历史。个人作业的日志也可以从这里访问，或者转到日志/用户日志目录。在我的新Yarn设置中（仅在单台计算机上运行），我有日志目录，但没有日志/用户日志文件夹。当我进入ResourceManager网页localh ..

发布时间：2018-05-31 19:21:56 configuration hadoop cloudera yarn 分布式计算/Hadoop

Datanode守护进程不在Hadoop 2.5.0上运行

我在单台机器上设置Hadoop 2.5.0，我遇到了未运行的datanode问题，如jps命令的输出所示： $ 3404 $ $ $ $ $ 2661 NodeManager 2606 ResourceManager 2484 NameNode 当我尝试手动运行时，我得到了这个结果： $ HADOOP_HOME / sbin / hadoop-daemon ..

发布时间：2018-05-31 19:21:24 java hadoop mapreduce hdfs yarn Java开发

Hadoop错误 - 所有数据节点正在中止

我正在使用Hadoop 2.3.0版本。有时当我执行Map Reduce作业时，会显示下面的错误。 14/08/10 12:14:59信息mapreduce.Job：任务ID：attempt_1407694955806_0002_m_000780_0，状态：FAILED 错误：java.io.IOException：所有datanodes 192.168.30.2:50010都不好。正在 ..

发布时间：2018-05-31 19:21:19 hadoop mapreduce hdfs yarn hadoop2 分布式计算/Hadoop

AWS EMR上的YARN日志聚合 - UnsupportedFileSystemException

我努力为我的Amazon EMR群集启用YARN日志聚合。我正在关注这个配置文件： http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-debugging.html#emr-plan-debugging-logs-归档在标题为“使用AWS CLI在Amazon S3中汇总日志”的部分下。 ..

发布时间：2018-05-31 19:20:20 hadoop yarn emr amazon-emr hadoop2 分布式计算/Hadoop

YARN UNHEALTHY节点

在我们的YARN集群中，有80％已满，我们看到一些纱线节点管理员被标记为“不健康”。在挖掘日志之后，我发现它是因为磁盘空间占用了数据目录的90％的空间。出现以下错误： 2015-02-21 08：33：51,590 INFO org.apache.hadoop.yarn.server.resourcemanager。 rmnode.RMNodeImpl：节点hdp009.abc.com:8 ..

发布时间：2018-05-31 19:20:18 hadoop distributed-computing cloudera yarn cloudera-cdh 分布式计算/Hadoop

Apache Hadoop示例的源代码在哪里？

任何人都可以请我指导Apache Hadoop Yarn示例的源代码。 2.2.0发行版带有jar名称hadoop-mapreduce-examples-2.2.0.jar。我正在尝试查找示例的源代码。任何指针都会有帮助... 谢谢，Amit 解决方案 div> 你看过SVN中的源代码吗？这里是。 http：//svn.apache .org / viewvc / hadoop ..

发布时间：2018-05-31 19:17:01 hadoop mapreduce yarn 分布式计算/Hadoop

yarn相关内容