yarn相关内容
我使用 Hortonworks Data Platform 2.5 设置了一个新的Hadoop集群。在“旧”集群中(安装 HDP 2.4 ),我可以通过点击链接来查看有关运行Spark作业的信息。显示不完整的申请: 在新安装中,此链接打开页面,但始终是未找到未完成的应用程序!(当仍有应用程序在运行时)。 我刚才看到, YARN ResourceManager UI 在“Tracking
..
我正在尝试通过Java代码进行spark-submit。我指的是以下示例。 https://github.com/mahmoudparsian/data-algorithms-book/blob/master/misc/how -to-submit-spark-job-to-yarn-from-java-code.md 但是我得到了 构造函数ClientArguments(Str
..
设定减少次数的以下3个选项的优先顺序是?换句话说,如果所有三个都设置了,哪一个会被考虑在内? 选项1: setNumReduceTasks(2)在应用程序代码中 Option2: -D mapreduce.job.reduces = 2作为命令行参数 选项3: 到$ HADOOP_CONF_DIR / mapred-site.
..
我搜索了一段时间,我发现使用hadoop2 + yarn的MapReduce集群具有以下并发映射数量并减少了每个节点: 并发地图#= yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 并发减少#= yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memor
..
我已经搜索了两天寻求解决方案。但没有任何工作。 首先,我是整个hadoop / yarn / hdfs主题的新手,想要配置一个小群集。 上面的消息不会显示每次我从mapreduce-examples.jar运行一个例子 有时teragen的作品,有时不是。 在某些情况下,整个工作失败,在另一些情况下,工作成功完成。 14/06/08 15:42:46信息ipc.Client
..
我已经根据CDH 5.1.0中的hadoop 2.3.0设置了带有1个节点管理器,4个本地目录和4个日志目录等的YARN MapReduce迷你集群。它看起来或多或少工作。我未能实现的是从容器中进行系统日志记录。我看到了容器日志目录, stdout 和 stderr 文件,但不是 syslog 用MapReduce容器记录。适当的 stderr 警告我没有log4j配置并且不包含任何其他字符串:
..
我有一个用Scala编写的Spark程序,它从HDFS读取一个CSV文件,计算一个新列并将其保存为一个parquet文件。我正在YARN集群中运行程序。但是每次我尝试启动它时,执行程序都会在某个时候出现此错误。 您能帮我找到可能导致此错误的原因吗? b $ b 从执行程序登录 16/10/27 15:58:10 WARN storage .BlockManager:将块rdd_1
..
这个参数的官方描述如下: 用于执行MapReduce作业的运行时框架。可以是本地,经典或纱线之一。 我知道'yarn'的值是针对MRv2的,它会将mapreduce作业提交给resourcemanager。但本地和古典有什么区别?哪一个对应于MRv1? 非常感谢! 解决方案 你说得对,“纱”代表MRv2。 “经典”用于MRv1,“本地”用于MR作业的本地运
..
我有一个在MapReduce模式下运行的Pig脚本,它一直在接收一个我一直无法修复的持久性错误。该脚本生成多个MapReduce应用程序;运行几个小时后,其中一个应用程序注册为SUCCEEDED,但返回以下诊断消息: 成功提交后,我们崩溃了。恢复。 导致失败的步骤是尝试对大约100GB的数据集执行RANK,将大约1000个mapreduce输出来自以前脚本的文件。但我也收到了其他脚本尝
..
我最近能够使用本机64位支持构建Apache Hadoop 2.5.1。所以,我摆脱了恼人的本地库警告。 我正在尝试配置Apache Spark。 14/09/14 18:48:42 WARN util.NativeCodeLoader :无法为您的平台加载native-hadoop库......在适用的情况下使用builtin-java类 一些提示: 我不得
..
我在giraph的自定义类中遇到了一些问题。我做了一个VertexInput和Output格式,但我总是得到以下错误: java.io.IOException:ensureRemaining:Only *剩余字节,试图读取* ,其中放置了“*”的不同值。 这是在单个节点集群上测试的。 这个问题发生在vertexIterator执行next()时,并且
..
我在使用Ambari的spark 2.1.1和hadoop 2.6时遇到了问题。我首先在本地计算机上测试了我的代码(单节点,本地文件),一切都按预期工作: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .master('yarn')\ .appName( 'localTest')
..
在有两个inets的机器上安装一个spark集群,另一个是另一个private。 internal_ip FQDN / p> 然而,当我通过在YARN客户端模式下的pyspark请求SparkContext时( pyspark --master yarn --deploy- 15 /模式客户端),akka绑定到公共ip上, 11/07 23:29:23信息远程处理:开始远程处理
..
我们正试图将我们的工作从Hadoop 1.0.3迁移到Hadoop 2(准确地说,Hadoop 2.8.1,单节点集群)。我们使用YARN来管理我们的地图缩减工作。我们注意到的差异之一是每个映射存在两个Linux进程或减少计划执行的任务。例如,对于我们的任何reduce任务,我们可以找到这两个执行过程: hadoop 124692 124690 0 12:33? 00:00:00 / bin
..
配置了具有Kerberos安全性的Hadoop-2.6.0 HA群集。当使用tez-example-0.6.0.jar在不同用户的 yarn-tez 框架中提交示例作业时,获取下面的异常 异常 java.io.IOException:临时目录hdfs上的所有权:// clustername / tmp / staging不符合预期。它由Kumar拥有。该目录必须由提交者TestUse
..
我们使用官方REST API从Hadoop资源管理器中的各种用户和应用程序读取资源使用情况。我们的问题是,应用程序历史记录的持续时间不够长,因此它会返回已使用内核,内存和容器的-1值。 我们想延长持续时间该纱线存储的数据,但我们不知道在哪里设置值。 解决方案 您应该检查您的mapred站点。 xml并查看 mapreduce.jobhistory.max-age-ms 。如以下所述:
..
我对YARN很新颖。我运行了我创建日志的oozie工作。 我可以看到纱线记录 yarn logs -applicationId application_123456789_12345678 我想知道如何删除这些日志?我可以删除文件以删除日志吗? 解决方案 没有纱线命令可以从CLI中删除纱线日志。 > 您可以通过使用Linux rm 进入纱线日志目
..
今天早上我有Hadoop 2.4(参见我以前的2个问题)。现在我删除它,并安装2.2,因为我有问题与2.4,也因为我认为2.2是最新的稳定版本。现在我在这里跟着教程: http://codesfusion.blogspot.com/2013/10/setup-hadoop-2x-220-on-ubuntu.html?m=1 当我运行jps时,我确实做了所有事情,但我仍然面临类似的问题。
..
我使用本教程在Windows 8.1上设置了一个节点Hadoop 2.6.0群集 - https ://wiki.apache.org/hadoop/Hadoop2OnWindows 。 所有守护程序都已启动并正在运行。我可以使用 hadoop fs -ls / 访问hdfs,但是我还没有加载任何东西,所以现在没有任何东西可以显示。 但是当我运行一个简单的map reduce程序时,我
..
我有一个非常基本的问题,我正试图找到答案。我正在浏览文档以了解在映射阶段,混洗阶段和缩小阶段数据溢出的位置?如果映射器A具有16 GB的RAM,但如果映射器的已分配内存已超过,则数据将被泄漏。 数据溢出到HDFS上还是数据会溢出到磁盘上的tmp文件夹中? 在shuffle阶段,数据是从一个节点流到另一个节点的,并存储在HDFS或临时存储位置。 我之所以问这些问题是要弄清楚工作完成后是
..