yarn 第8页 - IT屋-程序员软件开发技术分享社区

如何在Spark 1.2.0中将配置文件添加到所有Spark执行程序的类路径中?

我正在使用Typesafe Config( https://github.com/typesafehub/config )来参数化正在运行的Spark作业在纱线群集模式下使用配置文件. Typesafe Config的默认行为是在类路径中搜索名称与正则表达式匹配的资源，并使用ConfigFactory.load()自动将它们加载到配置类中(出于我们的目的，假定它查找的文件称为application ..

发布时间：2020-07-12 05:22:30 apache-spark classpath yarn typesafe-config 其他开发

在带有纱线的Amazon EMR上运行sqoop2服务器时出错

我正在尝试在Amazon EMR集群(AMI版本3.2.0/Hadoop版本2.4.0)上安装sqoop 2(版本1.99.3).启动sqoop服务器时，我在localhost.log中看到此错误: Sep 10, 2014 4:55:56 PM org.apache.catalina.core.StandardContext listenerStart SEVERE: Exception ..

发布时间：2020-07-09 21:09:36 yarn amazon-emr hadoop2 sqoop2 其他开发

HDP 3.1.0.0-78升级后无法使用ResourceManager UI杀死YARN应用

我最近将HDP从2.6.5升级到了运行YARN 3.1.0的3.1.0，并且我无法再使用旧版本的(:8088/cluster/apps)或新版本从YARN ResourceManager UI中终止应用程序(:8088/ui2/index.html#/yarn-apps/apps)版本.我仍然可以使用RHEL 7中的shell和yarn app -kill {app-id} 杀死它们. 这些申 ..

发布时间：2020-07-05 23:34:52 hadoop spark-streaming yarn resourcemanager 其他开发

Spark:连接拒绝纱线上的Webapp代理

我在docker容器上使用spark和hadoop: 我有3个容器主容器和2个从属容器. 一切正常，但是运行任务时我的spark代理webapp出现问题. 我可以通过n http://172.20.0.2:8088/连接到yarn webapp 我还可以使用http://172.20.0.3:8042/node和http://172.20.0.3:8043/node 访问节点但是 ..

发布时间：2020-07-01 06:15:29 hadoop apache-spark docker yarn network-interface 其他开发

EMR中的资源优化/利用，可用于长时间运行的作业和多个小型运行的作业

我的用例: 我们有一个运行时间很长的Spark工作.在此之后，称为 LRJ .这项工作每周运行一次. 我们有多个随时可以执行的小型运行作业.这些作业比长期运行的作业具有更高的优先级. 为解决此问题，我们如下创建了YARN队列: 创建了用于资源管理的YARN队列.为长时间运行的作业配置了Q1队列，为小型运行的作业配置了Q2队列. Config: Q1 : cap ..

发布时间：2020-06-29 21:08:31 apache-spark hadoop yarn amazon-emr long-running-processes 其他开发

Hadoop:指定distcp的yarn队列

在我们的集群上，我们建立了动态资源池. 设置规则，以便第一个纱线将查看指定的队列，然后是用户名，然后是主要组... 但是对于 distcp ，我似乎无法能够指定一个队列，只需将其设置为主要组即可. 这是我现在运行它的方式(不起作用): hadoop distcp -Dmapred.job.queue.name:root.default ....... 解决方案 ..

发布时间：2020-06-11 19:46:12 hadoop yarn distcp 其他开发

为什么启动我的pyspark时它会像接受的那样悬挂在纱线上？

我只是在 Linux 中启动了一个新的 AWS 实例。并且，我在上面安装了 pyspark 。它具有 spark 1.6 。我正在运行 pyspark 和 yarn 。当我在终端中执行命令 pyspark 时，它首先启动，但随后我收到消息： dd / mm / YY HH：MM：SS INFO纱线客户：application_XXXXXXXXXXX_XXXX的申请报告（状态：已接受 ..

发布时间：2020-06-04 00:52:39 apache-spark amazon-ec2 pyspark yarn 其他开发

Oozie/yarn:src文件系统上的资源已更改

我有一个Oozie工作流程，其步骤之一是java步骤，运行存储在本地文件系统上的jar(该jar存在于所有节点上). 最初，jar是通过RPM安装的，因此它们都具有相同的时间戳. 在进行试验时，我在此jar上手动复制了一个新版本，现在我收到消息: org.apache.oozie.action.ActionExecutorException: JA009: org.apache. ..

发布时间：2020-05-20 18:30:48 hadoop yarn oozie 其他开发

Oozie Shell动作记忆限制

我们有一个带有外壳操作的oozie工作流程，该操作比默认情况下由Yarn给出的地图任务需要更多的内存. 我们如何给它更多的存储空间? 我们尝试将以下配置添加到操作中: mapreduce.map.memory.mb 6144 ..

发布时间：2020-05-20 18:30:33 oozie yarn 其他开发

Spark中的并发作业执行

我使用了以下格式的输入数据: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasource 我已使用以下代码段使用多个线程将RDD保存为文本文件: package org.apache.spark.examples; import java.io.Serializable; import java ..

发布时间：2020-05-13 22:55:08 java multithreading apache-spark yarn Java开发

Spark Metrics:如何访问执行程序和工作程序数据?

注意:我在YARN上使用Spark 我一直在尝试在Spark中实施的指标系统 .我启用了ConsoleSink和CsvSink，并为所有四个实例(驱动程序，主机，执行程序，工作程序)启用了JvmSource.但是，我只有驱动程序输出，而控制台和csv目标目录中没有worker/executor/master数据. 在阅读了这个问题之后，我想知道我是否必须提交工作时，将东西运送给执行者. ..

发布时间：2020-05-09 19:12:45 apache-spark monitoring yarn metrics 其他开发

如何在Windows机器上设置Spark集群?

我正在尝试在Windows计算机上设置Spark集群. 去这里的方法是使用独立模式，对吗? 不使用Mesos或YARN的具体缺点是什么?使用其中任何一种会带来多大的痛苦?有人在这里有经验吗? 解决方案仅供参考，我在用户组中得到了答案:独立模式确实是必经之路. Mesos可能无法在Windows和YARN下运行. ..

发布时间：2020-05-09 01:10:16 apache-spark cluster-computing bigdata yarn mesos 其他开发

当在Spark中运行大连接时，我让执行器运行超出内存限制

在Spark上进行大联接时，我在驱动程序中遇到以下错误. 我们有3个节点，内存为32GB，联接的总输入大小为150GB. (当输入文件大小为50GB时，同一个应用程序可以正常运行) 我将storage.memoryFraction设置为0.2，并将shuffle.memoryFraction设置为0.2.但仍然会继续遇到运行中的物理极限错误. 15/04/07 19:58:17 ..

发布时间：2020-05-08 20:02:04 java memory apache-spark yarn Java开发

在我们的发现集群中提高纱线容器利用率的建议

当前设置我们有10个节点的发现集群. 该群集的每个节点都有24个核心和264 GB内存，为后台进程保留一些内存和CPU，我们计划使用240 GB内存. 现在，在容器设置方面，由于每个容器可能需要1个核心，因此，我们最多可以有24个容器，每个容器具有10GB内存. 通常，群集的容器具有1-2 GB的内存，但是我们受限于我们拥有的可用核心，或者我可能缺少某些东西问题陈述由 ..

发布时间：2020-05-05 15:51:07 hadoop mapreduce yarn apache-tez planning 其他开发

普通身份验证失败:没有为用户模拟配置任何模拟.模拟用户:alluxio mapreduce中的root

由以下原因引起:org.apache.thrift.transport.TTransportException:普通身份验证失败:没有为用户模拟配置用户纱.模拟用户:root 当我使用alluxio在本地运行wordcount程序时，它可以正常工作.我还通过了集成测试，但是当我使用alluxio客户端jar运行相同的Hadoop程序时它给了我一个错误 bin/hadoop jar / ..

发布时间：2020-05-05 15:49:14 hadoop mapreduce yarn alluxio 其他开发

MR工作各个阶段的顺序正确吗?

我试图了解MR Job经历的各个阶段.我阅读了相同的在线文档. 基于此，我对序列的理解如下: map()->分区程序->排序(在mapper机器上)->随机播放->排序(在reducer机器上)-> groupBy(Key)(在reducer机器上)-> reduce() 这是执行MR作业的正确顺序吗? 解决方案地图的各个阶段都会减少工作量: 地图阶段: 从 ..

发布时间：2020-05-05 15:48:48 hadoop mapreduce yarn hadoop2 其他开发

无法为任务tryId NNN分配容器

我试图了解容器如何根据不同的硬件配置在YARN中分配内存及其性能. 因此，该机器有30 GB RAM，我为YARN选择了24 GB，为系统保留6 GB. yarn.nodemanager.resource.memory-mb=24576 然后，我跟随 http ://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_inst ..

发布时间：2020-05-05 15:48:20 hadoop memory mapreduce bigdata yarn 其他开发

如何在yarn中更改tmp目录

我写了一个MR作业，并使用以下配置设置在本地模式下运行它 mapred.local.dir=> fs.default.name=file:/// mapred.job.tracker=local 在Hadoop 1.x上现在我正在使用Hadoop 2.x，并且使用相同的Configurat ..

发布时间：2020-05-05 15:47:37 hadoop mapreduce yarn 其他开发

Hadoop YARN作业卡在地图0％处并减少0％

我试图运行一个非常简单的作业来测试我的hadoop设置，所以我尝试使用Word Count Example，它被卡在0％内，所以我尝试了其他一些简单的作业，而每个作业都被卡住 52191_0003/ 14/07/14 23:55:51 INFO mapreduce.Job: Running job: job_1405376352191_0003 14/07/14 23:55:57 INFO ..

发布时间：2020-05-05 15:47:20 hadoop mapreduce cloudera yarn 其他开发

失败错误:java.io.IOException:所有收集器的初始化失败

运行MapReduce WordCount作业时出现一些错误. 错误:java.io.IOException:所有收集器的初始化失败的.最后一个收集器的错误是:class wordcount.wordmapper在 org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:414) 在org.apache.ha ..

发布时间：2020-05-05 15:47:14 hadoop mapreduce yarn 其他开发

yarn相关内容