hadoop-yarn - IT屋-程序员软件开发技术分享社区

在集群模式下与Spark-Submit共享配置文件

我在开发期间一直在“客户端”模式下运行我的Spark作业。我使用“--file”与执行器共享配置文件。驱动程序正在本地读取配置文件。现在，我想在“集群”模式下部署作业。我现在无法与驱动程序共享配置文件。例如，我将配置文件名作为Extra Java Options传递给驱动程序和执行器。我正在使用SparkFiles.get()读取文件 val configFile = org.a ..

发布时间：2022-08-08 17:34:31 apache-spark spark-streaming hadoop-yarn 其他开发

Hadoop：无法设置资源管理器进程的优先级

我是Hadoop的新手，我正在尝试使用Hadoop-3.1.2设置伪分布式模式执行。当我尝试启动纱线服务时，我收到以下错误，请参见下面的代码片段。 $ sbin/start-yarn.sh Starting resourcemanagers on [] localhost: ERROR: Cannot set priority of resourcemanager process 132 ..

发布时间：2022-07-16 21:39:35 hadoop hadoop-yarn 其他开发

带参数的纱线运行脚本

如何传递参数？当我运行“纱线生成”时，它将创建一个“-p”目录和一个“测试”目录。但当我在bash中运行“mkdir-p test”时，它运行得很好。我也尝试了[-p]，但它只创建了该目录。 "scripts": { "generate": "mkdir -p test" } 推荐答案虽然我无法重现您提到的问题(我的配置：node v8.11.1和yarn v1.2. ..

发布时间：2022-04-15 18:03:59 bash hadoop-yarn 其他开发

纱线资源管理器在请求具有不同资源的容器时没有分配容器

我在应用程序主机中使用了同步AMRMClient，使用AMRMClient的addContainerRequest方法添加容器请求，使用AMRMClient的getMatchingRequest和emoveContainerRequest方法删除容器请求。然而，当程序添加具有不同资源容器请求时，资源管理器不再为应用主机分配任何资源，从而导致死锁。有没有人曾经遇到过这样的问题？推荐答案 ..

发布时间：2022-04-15 18:02:48 hadoop-yarn 其他开发

运行更大的纱线作业的主要限制是什么？我如何增加它？

运行更大的纱线作业(Hadoop版本HDP-3.1.0.0(3.1.0.0-78))的主要限制是什么？我如何增加它？基本上，我希望同时执行更多(所有都很大)的SQOOP作业。我目前假设我需要增加资源管理器堆的大小(因为当我运行纱线作业时，这就是我在Ambari仪表板上看到的)。如何将更多资源添加到RM堆/为什么RM堆似乎只占可用总RAM的一小部分(用于纱线？)跨群集？查看Ambar ..

发布时间：2022-04-15 18:01:27 hadoop hadoop-yarn resourcemanager hdp 其他开发

如何在火花纱簇模式下使用--属性-文件选项加载额外的火花属性？

我在纱线集群模式下使用Spark-Submit运行一个Spark作业。为了在运行时提交输入和输出文件路径，我尝试加载一个包含输入和输出路径的属性文件。属性文件：input.properties spark.myapp.input /input/path spark.myapp.output /output/path 我正在使用以下命令运行我的应用程序。 ..

发布时间：2022-04-15 17:59:54 scala apache-spark hadoop-yarn 其他开发

Spark-app根据不同的执行器内存返回不同的结果？

我注意到一些奇怪的行为，我有一个Spark作业，它读取数据，执行一些分组排序和联接，并创建一个输出文件。问题是，当我在超过环境的内存上运行相同的作业时，例如，集群有50 GB，而我提交的Spark-Submit的执行器内存和4 GB驱动内存接近60 GB。我的结果减少似乎是某个数据分区或任务在处理时丢失。 driver-memory 4g --executor-memory 4g ..

发布时间：2022-04-15 17:58:10 apache-spark hadoop-yarn 其他开发

Akeneo安装/NODE_PATH=NODE_MODULES无法识别/纱线运行webpack错误

我已经在GIT上问过这个问题(https://github.com/akeneo/pim-community-dev/issues/7191) 但不幸的是，还没有人回复我，以为我会试一试。我跟进akeneo-Install-Instruction(pim-Community-Standard-v2.0) https://docs.akeneo.com/latest/install_pim/ma ..

发布时间：2022-04-15 17:56:51 hadoop-yarn akeneo 其他开发

Spark客户端模式-纱线为驱动程序分配容器？

我在客户端模式下对Sink运行Spark，因此我预计Sink将只为Executor分配容器。然而，从我所看到的情况来看，似乎还为驱动程序分配了一个容器，而我没有得到我预期的那么多执行器。我在主节点上运行Spark Submit。参数如下： sudo spark-submit --class ... --conf spark.master=yarn --conf s ..

发布时间：2022-04-15 17:54:33 apache-spark hadoop-yarn 其他开发

Spark：多个Spark-并行提交

我有一个关于阿帕奇Spark的一般性问题：我们有一些消费Kafka消息的火花流脚本。问题：它们随机失败，没有出现特定错误... 当我手动运行某些脚本时，它们在工作时什么也不做，其中一个脚本失败，并显示以下消息：错误SparkUI：绑定SparkUI失败 Java.net.BindException：地址已在使用中：服务‘SparkUI’在16次重试后失败！所以我想知 ..

发布时间：2022-04-15 17:52:50 hadoop apache-spark cloudera hadoop-yarn 其他开发

纱线容器内存不足

我的纱线容器内存不足：此特定容器运行一个Apache-Spark驱动程序节点。我不理解的部分：我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存，增量为0.5 GB。此外，我托管纱线容器的物理机器每台都有32 GB。我通 ..

发布时间：2022-04-15 17:51:37 java hadoop apache-spark cloudera hadoop-yarn Java开发

火花配置优先级

在代码中指定Spark应用程序配置是否有区别或优先级： SparkConf().setMaster(yarn) 并在命令行中指定它们 spark-submit --master yarn 推荐答案是，在用户代码中使用set()函数为配置赋予最高优先级。在那之后，旗帜闪闪发光地过去了。直接在SparkConf上设置的属性具有最高优先级，然后将标志传递给Spark- ..

发布时间：2022-04-15 17:50:26 apache-spark hadoop-yarn 其他开发

通过NPM安装后找不到纱线命令

根据纱线v2的纱线安装，他们希望您使用npm install -g yarn进行安装。所以我在Ubuntu 20.04上运行了sudo npm install -g yarn。但在我执行此操作后，系统显示未找到命令。 ❯ sudo npm install -g yarn > yarn@1.22.10 preinstall /usr/local/lib/node_modules/yarn > ..

发布时间：2022-04-15 17:47:47 javascript node.js ubuntu npm hadoop-yarn 前端开发

Scala Via Spark缺少纱线-卷曲括号绳子

我编写了一些Scala代码，代码如下所示。 object myScalaApp { def main(args: Array[String]) : Unit = { val strJson = args.apply(0) println( "strJson : " + strJson) 并从纱线调用此Scala JAR文件。 Process ..

发布时间：2022-04-15 17:45:16 json scala apache-spark hadoop-yarn curly-braces 其他开发

如何杀死正在运行的Spark应用程序？

我有一个正在运行的Spark应用程序，它占据了我的其他应用程序不会被分配任何资源的所有核心。我做了一些快速的研究，人们建议使用SLEAN KILL或/bin/Spark-class来终止命令。但是，我使用的是CDH版本，/bin/spark-class根本不存在，纱线杀死应用程序也不起作用。有人能和我一起拿这个吗？推荐答案从Spark Scheduler复制粘贴应用 ..

发布时间：2022-04-15 17:42:40 apache-spark hadoop-yarn pyspark 其他开发

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业，是否可以使用hdfs中的jar指定类路径有点像使用Map Reduce作业： DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案来自SparkContext文档： defaddJar(路径：string) ..

发布时间：2022-02-27 17:54:43 hadoop apache-spark hdfs hadoop-yarn 其他开发

Spark on YARN 资源管理器:YARN Containers 和 Spark Executors 之间的关系

我是 YARN 上的 Spark 新手，不了解 YARN Containers 和 Spark Executors 之间的关系.我根据 yarn-utils.py 脚本的结果尝试了以下配置，可用于找到最佳集群配置. 我正在开发的 Hadoop 集群 (HDP 2.4): 1 个主节点: CPU:2 个 CPU，每个 CPU 6 个内核 = 12 个内核内存:64 GB SSD: ..

发布时间：2022-01-24 20:33:53 apache-spark containers hadoop-yarn hortonworks-data-platform executor 其他开发

为什么 JVM 报告的已提交内存比 linux 进程驻留集大小更多?

在启用本机内存跟踪的情况下运行 Java 应用程序(在 YARN 中)时(-XX:NativeMemoryTracking=detail，请参阅 https://docs.oracle.com/javase/8/docs/technotes/guides/vm/nmt-8.html 和 https://docs.oracle.com/javase/8/docs/technotes/guides/t ..

发布时间：2022-01-16 11:47:06 linux memory jvm hadoop-yarn 服务器开发

Hadoop 错误 - 所有数据节点都在中止

我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时，会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0，状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a ..

发布时间：2022-01-14 08:13:08 hadoop mapreduce hdfs hadoop-yarn hadoop2 其他开发

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..

发布时间：2022-01-14 08:10:50 hadoop mapreduce hadoop-yarn hadoop2 其他开发

hadoop-yarn相关内容