yarn相关内容

HDP 2.5:Spark History Server UI不会显示不完整的应用程序

我使用 Hortonworks Data Platform 2.5 设置了一个新的Hadoop集群。在“旧”集群中(安装 HDP 2.4 ),我可以通过点击链接来查看有关运行Spark作业的信息。显示不完整的申请: 在新安装中,此链接打开页面,但始终是未找到未完成的应用程序!(当仍有应用程序在运行时)。 我刚才看到, YARN ResourceManager UI 在“Tracking ..

spark通过java代码提交

我正在尝试通过Java代码进行spark-submit。我指的是以下示例。 https://github.com/mahmoudparsian/data-algorithms-book/blob/master/misc/how -to-submit-spark-job-to-yarn-from-java-code.md 但是我得到了 构造函数ClientArguments(Str ..
发布时间:2018-05-31 20:12:33 Java开发

纱线hadoop 2.4.0:信息消息:ipc.Client重试连接到服务器

我已经搜索了两天寻求解决方案。但没有任何工作。 首先,我是整个hadoop / yarn / hdfs主题的新手,想要配置一个小群集。 上面的消息不会显示每次我从mapreduce-examples.jar运行一个例子 有时teragen的作品,有时不是。 在某些情况下,整个工作失败,在另一些情况下,工作成功完成。 14/06/08 15:42:46信息ipc.Client ..
发布时间:2018-05-31 20:05:38 分布式计算/Hadoop

纱线迷你集群容器日志目录不包含系统日志文件

我已经根据CDH 5.1.0中的hadoop 2.3.0设置了带有1个节点管理器,4个本地目录和4个日志目录等的YARN MapReduce迷你集群。它看起来或多或少工作。我未能实现的是从容器中进行系统日志记录。我看到了容器日志目录, stdout 和 stderr 文件,但不是 syslog 用MapReduce容器记录。适当的 stderr 警告我没有log4j配置并且不包含任何其他字符串: ..
发布时间:2018-05-31 20:05:03 Java开发

Spark工作在YARN模式下失败

我有一个用Scala编写的Spark程序,它从HDFS读取一个CSV文件,计算一个新列并将其保存为一个parquet文件。我正在YARN集群中运行程序。但是每次我尝试启动它时,执行程序都会在某个时候出现此错误。 您能帮我找到可能导致此错误的原因吗? b $ b 从执行程序登录 16/10/27 15:58:10 WARN storage .BlockManager:将块rdd_1 ..
发布时间:2018-05-31 20:04:46 分布式计算/Hadoop

mapred-site.xml中的mapreduce.framework.name的经典本地区别是什么?

这个参数的官方描述如下: 用于执行MapReduce作业的运行时框架。可以是本地,经典或纱线之一。 我知道'yarn'的值是针对MRv2的,它会将mapreduce作业提交给resourcemanager。但本地和古典有什么区别?哪一个对应于MRv1? 非常感谢! 解决方案 你说得对,“纱”代表MRv2。 “经典”用于MRv1,“本地”用于MR作业的本地运 ..
发布时间:2018-05-31 19:55:49 分布式计算/Hadoop

尝试提交时成功的任务会生成mapreduce.counters.LimitExceededException

我有一个在MapReduce模式下运行的Pig脚本,它一直在接收一个我一直无法修复的持久性错误。该脚本生成多个MapReduce应用程序;运行几个小时后,其中一个应用程序注册为SUCCEEDED,但返回以下诊断消息: 成功提交后,我们崩溃了。恢复。 导致失败的步骤是尝试对大约100GB的数据集执行RANK,将大约1000个mapreduce输出来自以前脚本的文件。但我也收到了其他脚本尝 ..
发布时间:2018-05-31 19:55:34 分布式计算/Hadoop

Apache Spark本机库

我最近能够使用本机64位支持构建Apache Hadoop 2.5.1。所以,我摆脱了恼人的本地库警告。 我正在尝试配置Apache Spark。 14/09/14 18:48:42 WARN util.NativeCodeLoader :无法为您的平台加载native-hadoop库......在适用的情况下使用builtin-java类 一些提示: 我不得 ..
发布时间:2018-05-31 19:54:59 分布式计算/Hadoop

java.io.IOException:ensureRemaining:只剩下0个字节,试图读取1

我在giraph的自定义类中遇到了一些问题。我做了一个VertexInput和Output格式,但我总是得到以下错误: java.io.IOException:ensureRemaining:Only *剩余字节,试图读取* ,其中放置了“*”的不同值。 这是在单个节点集群上测试的。 这个问题发生在vertexIterator执行next()时,并且 ..
发布时间:2018-05-31 19:54:51 Java开发

让spark使用/ etc / hosts文件在YARN集群模式下进行绑定

在有两个inets的机器上安装一个spark集群,另一个是另一个private。 internal_ip FQDN / p> 然而,当我通过在YARN客户端模式下的pyspark请求SparkContext时( pyspark --master yarn --deploy- 15 /模式客户端),akka绑定到公共ip上, 11/07 23:29:23信息远程处理:开始远程处理 ..

Hadoop 2:为什么每个映射或减少任务有两个linux进程?

我们正试图将我们的工作从Hadoop 1.0.3迁移到Hadoop 2(准确地说,Hadoop 2.8.1,单节点集群)。我们使用YARN来管理我们的地图缩减工作。我们注意到的差异之一是每个映射存在两个Linux进程或减少计划执行的任务。例如,对于我们的任何reduce任务,我们可以找到这两个执行过程: hadoop 124692 124690 0 12:33? 00:00:00 / bin ..
发布时间:2018-05-31 19:48:26 分布式计算/Hadoop

Tez作业在由不同用户提交时失败

配置了具有Kerberos安全性的Hadoop-2.6.0 HA群集。当使用tez-example-0.6.0.jar在不同用户的 yarn-tez 框架中提交示例作业时,获取下面的异常 异常 java.io.IOException:临时目录hdfs上的所有权:// clustername / tmp / staging不符合预期。它由Kumar拥有。该目录必须由提交者TestUse ..
发布时间:2018-05-31 19:48:05 Java开发

Hadoop Resource Manager存储应用程序信息多久?

我们使用官方REST API从Hadoop资源管理器中的各种用户和应用程序读取资源使用情况。我们的问题是,应用程序历史记录的持续时间不够长,因此它会返回已使用内核,内存和容器的-1值。 我们想延长持续时间该纱线存储的数据,但我们不知道在哪里设置值。 解决方案 您应该检查您的mapred站点。 xml并查看 mapreduce.jobhistory.max-age-ms 。如以下所述: ..
发布时间:2018-05-31 19:47:26 分布式计算/Hadoop

如何删除纱线日志

我对YARN很新颖。我运行了我创建日志的oozie工作。 我可以看到纱线记录 yarn logs -applicationId application_123456789_12345678 我想知道如何删除这些日志?我可以删除文件以删除日志吗? 解决方案 没有纱线命令可以从CLI中删除纱线日志。 > 您可以通过使用Linux rm 进入纱线日志目 ..
发布时间:2018-05-31 19:44:35 分布式计算/Hadoop

hadoop 2.2 - datanode不启动

今天早上我有Hadoop 2.4(参见我以前的2个问题)。现在我删除它,并安装2.2,因为我有问题与2.4,也因为我认为2.2是最新的稳定版本。现在我在这里跟着教程: http://codesfusion.blogspot.com/2013/10/setup-hadoop-2x-220-on-ubuntu.html?m=1 当我运行jps时,我确实做了所有事情,但我仍然面临类似的问题。 ..
发布时间:2018-05-31 19:42:30 分布式计算/Hadoop

在Windows上运行Hadoop 2.6.0上的Map reduce时出错

我使用本教程在Windows 8.1上设置了一个节点Hadoop 2.6.0群集 - https ://wiki.apache.org/hadoop/Hadoop2OnWindows 。 所有守护程序都已启动并正在运行。我可以使用 hadoop fs -ls / 访问hdfs,但是我还没有加载任何东西,所以现在没有任何东西可以显示。 但是当我运行一个简单的map reduce程序时,我 ..
发布时间:2018-05-31 19:42:16 Java开发

在MapReduce期间发生磁盘溢出

我有一个非常基本的问题,我正试图找到答案。我正在浏览文档以了解在映射阶段,混洗阶段和缩小阶段数据溢出的位置?如果映射器A具有16 GB的RAM,但如果映射器的已分配内存已超过,则数据将被泄漏。 数据溢出到HDFS上还是数据会溢出到磁盘上的tmp文件夹中? 在shuffle阶段,数据是从一个节点流到另一个节点的,并存储在HDFS或临时存储位置。 我之所以问这些问题是要弄清楚工作完成后是 ..
发布时间:2018-05-31 19:40:47 Java开发