yarn相关内容
我正在使用Typesafe Config( https://github.com/typesafehub/config )来参数化正在运行的Spark作业在纱线群集模式下使用配置文件. Typesafe Config的默认行为是在类路径中搜索名称与正则表达式匹配的资源,并使用ConfigFactory.load()自动将它们加载到配置类中(出于我们的目的,假定它查找的文件称为application
..
我正在尝试在Amazon EMR集群(AMI版本3.2.0/Hadoop版本2.4.0)上安装sqoop 2(版本1.99.3).启动sqoop服务器时,我在localhost.log中看到此错误: Sep 10, 2014 4:55:56 PM org.apache.catalina.core.StandardContext listenerStart SEVERE: Exception
..
我最近将HDP从2.6.5升级到了运行YARN 3.1.0的3.1.0,并且我无法再使用旧版本的(:8088/cluster/apps)或新版本从YARN ResourceManager UI中终止应用程序(:8088/ui2/index.html#/yarn-apps/apps)版本.我仍然可以使用RHEL 7中的shell和yarn app -kill {app-id} 杀死它们. 这些申
..
我在docker容器上使用spark和hadoop: 我有3个容器主容器和2个从属容器. 一切正常,但是运行任务时我的spark代理webapp出现问题. 我可以通过n http://172.20.0.2:8088/连接到yarn webapp 我还可以使用http://172.20.0.3:8042/node和http://172.20.0.3:8043/node 访问节点 但是
..
我的用例: 我们有一个运行时间很长的Spark工作.在此之后,称为 LRJ .这项工作每周运行一次. 我们有多个随时可以执行的小型运行作业.这些 作业比长期运行的作业具有更高的优先级. 为解决此问题,我们如下创建了YARN队列: 创建了用于资源管理的YARN队列.为长时间运行的作业配置了Q1队列,为小型运行的作业配置了Q2队列. Config: Q1 : cap
..
在我们的集群上,我们建立了动态资源池. 设置规则,以便第一个纱线将查看指定的队列,然后是用户名,然后是主要组... 但是对于 distcp ,我似乎无法能够指定一个队列,只需将其设置为主要组即可. 这是我现在运行它的方式(不起作用): hadoop distcp -Dmapred.job.queue.name:root.default ....... 解决方案
..
我只是在 Linux 中启动了一个新的 AWS 实例。并且,我在上面安装了 pyspark 。它具有 spark 1.6 。 我正在运行 pyspark 和 yarn 。当我在终端中执行命令 pyspark 时,它首先启动,但随后我收到消息: dd / mm / YY HH:MM:SS INFO纱线客户:application_XXXXXXXXXXX_XXXX的申请报告(状态:已接受
..
我有一个Oozie工作流程,其步骤之一是java步骤,运行存储在本地文件系统上的jar(该jar存在于所有节点上). 最初,jar是通过RPM安装的,因此它们都具有相同的时间戳. 在进行试验时,我在此jar上手动复制了一个新版本,现在我收到消息: org.apache.oozie.action.ActionExecutorException: JA009: org.apache.
..
我们有一个带有外壳操作的oozie工作流程,该操作比默认情况下由Yarn给出的地图任务需要更多的内存. 我们如何给它更多的存储空间? 我们尝试将以下配置添加到操作中: mapreduce.map.memory.mb 6144
..
我使用了以下格式的输入数据: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasource 我已使用以下代码段使用多个线程将RDD保存为文本文件: package org.apache.spark.examples; import java.io.Serializable; import java
..
注意:我在YARN上使用Spark 我一直在尝试在Spark中实施的指标系统 .我启用了ConsoleSink和CsvSink,并为所有四个实例(驱动程序,主机,执行程序,工作程序)启用了JvmSource.但是,我只有驱动程序输出,而控制台和csv目标目录中没有worker/executor/master数据. 在阅读了这个问题之后,我想知道我是否必须提交工作时,将东西运送给执行者.
..
我正在尝试在Windows计算机上设置Spark集群. 去这里的方法是使用独立模式,对吗? 不使用Mesos或YARN的具体缺点是什么?使用其中任何一种会带来多大的痛苦?有人在这里有经验吗? 解决方案 仅供参考,我在用户组中得到了答案:独立模式确实是必经之路. Mesos可能无法在Windows和YARN下运行.
..
在Spark上进行大联接时,我在驱动程序中遇到以下错误. 我们有3个节点,内存为32GB,联接的总输入大小为150GB. (当输入文件大小为50GB时,同一个应用程序可以正常运行) 我将storage.memoryFraction设置为0.2,并将shuffle.memoryFraction设置为0.2.但仍然会继续遇到运行中的物理极限错误. 15/04/07 19:58:17
..
当前设置 我们有10个节点的发现集群. 该群集的每个节点都有24个核心和264 GB内存,为后台进程保留一些内存和CPU,我们计划使用240 GB内存. 现在,在容器设置方面,由于每个容器可能需要1个核心,因此,我们最多可以有24个容器,每个容器具有10GB内存. 通常,群集的容器具有1-2 GB的内存,但是我们受限于我们拥有的可用核心,或者我可能缺少某些东西 问题陈述 由
..
由以下原因引起:org.apache.thrift.transport.TTransportException:普通身份验证失败:没有为用户模拟配置用户纱.模拟用户:root 当我使用alluxio在本地运行wordcount程序时,它可以正常工作.我还通过了集成测试,但是当我使用alluxio客户端jar运行相同的Hadoop程序时 它给了我一个错误 bin/hadoop jar /
..
我试图了解MR Job经历的各个阶段.我阅读了相同的在线文档. 基于此,我对序列的理解如下: map()->分区程序->排序(在mapper机器上)->随机播放->排序(在reducer机器上)-> groupBy(Key)(在reducer机器上)-> reduce() 这是执行MR作业的正确顺序吗? 解决方案 地图的各个阶段都会减少工作量: 地图阶段: 从
..
我试图了解容器如何根据不同的硬件配置在YARN中分配内存及其性能. 因此,该机器有30 GB RAM,我为YARN选择了24 GB,为系统保留6 GB. yarn.nodemanager.resource.memory-mb=24576 然后,我跟随 http ://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_inst
..
我写了一个MR作业,并使用以下配置设置在本地模式下运行它 mapred.local.dir=> fs.default.name=file:/// mapred.job.tracker=local 在Hadoop 1.x上 现在我正在使用Hadoop 2.x,并且使用相同的Configurat
..
我试图运行一个非常简单的作业来测试我的hadoop设置,所以我尝试使用Word Count Example,它被卡在0%内,所以我尝试了其他一些简单的作业,而每个作业都被卡住 52191_0003/ 14/07/14 23:55:51 INFO mapreduce.Job: Running job: job_1405376352191_0003 14/07/14 23:55:57 INFO
..
运行MapReduce WordCount作业时出现一些错误. 错误:java.io.IOException:所有收集器的初始化 失败的.最后一个收集器的错误是:class wordcount.wordmapper在 org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:414) 在org.apache.ha
..