apache-spark-standalone相关内容

Apache Spark:客户端和集群部署模式的区别

TL;DR: 在 Spark Standalone 集群中,客户端和集群部署模式有什么区别?如何设置我的应用程序将在哪种模式下运行? 我们有一个包含三台机器的 Spark Standalone 集群,所有机器都使用 Spark 1.6.1: 一台主机,也是我们使用 spark-submit 运行我们的应用程序的地方2 台相同的工作机器 来自 Spark 文档,我读到: ( ..
发布时间:2021-12-09 23:53:21 其他开发

我应该为 Spark 选择哪种集群类型?

我是 Apache Spark 的新手,我刚刚了解到 Spark 支持三种类型的集群: 独立 - 意味着 Spark 将管理自己的集群 YARN - 使用 Hadoop 的 YARN 资源管理器 Mesos - Apache 的专用资源管理器项目 我想我应该先尝试独立.以后需要搭建一个大集群(上百个实例). 我应该选择哪种集群类型? 解决方案 我认为最好的回答是那些在 ..

Spark Standalone Number Executors/Cores 控制

所以我有一个具有 16 个内核和 64GB RAM 的 Spark 独立服务器.我在服务器上同时运行 master 和 worker.我没有启用动态分配.我在 Spark 2.0 上 我不明白的是什么时候提交我的工作并指定: --num-executors 2--executor-cores 2 应该只占用 4 个内核.然而,当提交作业时,它会占用所有 16 个内核并启动 8 个执行程序 ..
发布时间:2021-11-12 05:31:20 其他开发

找不到Spark应用程序输出

我有一个可以成功启动的集群,至少在我看到此信息的Web UI上显示的是 URL:spark://Name25:7077REST URL:spark://Name25:6066(集群模式)活着的工人:10使用的核心:总数192,已使用0使用的内存:总计364.0 GB,已使用0.0 B应用程序:0运行中,5已完成驱动程序:0运行中,5已完成状态:ALIVE 如果我以这种方式使用它,我使用了S ..
发布时间:2021-04-08 20:09:38 Java开发

强制驱动程序在以"--deploy-mode cluster"运行的spark独立群集中的特定从属服务器上运行.

我正在运行一个小型Spark集群,其中有两个EC2实例(m4.xlarge). 到目前为止,我一直在一个节点上运行spark主服务器,在另一个节点上运行单个spark从属服务器(4个核心,16g内存),然后在主节点上以客户端部署模式部署我的spark(流)应用程序.设置摘要是: -执行者内存16克 -执行者核心4 -驱动程序内存8克 -驱动程序核心2 -部署模式 ..
发布时间:2021-04-08 19:57:50 其他开发

如何使Spark驱动程序具有对Master的弹性重启?

我有一个Spark Standalone(不是YARN/Mesos)集群和一个正在(在客户端模式下)运行的驱动程序应用程序,该应用程序与该集群通信以执行其任务.但是,如果我关闭并重新启动Spark master和worker,驱动程序将不会重新连接到master并恢复其工作. 也许我对Spark Master和驱动程序之间的关系感到困惑.在这种情况下,主站是否负责重新连接到驱动程序?如果是这 ..
发布时间:2021-04-08 19:39:41 其他开发

驱动程序命令关闭后,Spark工作者停止了工作

基本上,主节点也充当从节点之一.一旦主服务器上的从服务器完成,它将调用SparkContext停止,因此此命令将传播到所有从服务器,这些从服务器在处理过程中停止执行. 错误登录其中一个工作程序: INFO SparkHadoopMapRedUtil:try_201612061001_0008_m_000005_18112:已提交 INFO执行程序:在阶段8.0(TID 18112 ..
发布时间:2020-09-04 07:05:41 其他开发

使用Spark独立集群如何在工作节点上管理多个执行者?

直到现在,我只在YARN作为资源管理器的Hadoop集群上使用了Spark.在这种类型的群集中,我确切地知道要运行多少个执行程序以及资源管理的工作方式.但是,知道我正在尝试使用独立Spark集群,我有些困惑.在错误的地方纠正我. 在本文中,默认情况下,工作节点使用节点的所有内存减去1 GB.但是我知道通过使用SPARK_WORKER_MEMORY,我们可以使用更少的内存.例如,如果节点的总内 ..

Spark在独立版本中比在YARN中运行更快

希望获得有关独立式和纱线执行火花的一些见解.我们有一个4节点的cloudera集群,当前在YARN模式下运行时,应用程序的性能不到在独立模式下运行时所获得的性能的一半.是否有人对可能造成这种情况的因素有所了解. 解决方案 基本上,您的数据和群集太小. 大数据技术的真正目的是处理无法容纳在单个系统上的数据.鉴于您的集群有4个节点,可能适合POC工作,但您不应认为这对基准测试应用程序是可 ..

连续INFO JobScheduler:59-在我的Spark Standalone集群中添加了时间为*** ms的作业

我们正在使用具有8个核心和32GB Ram的Spark独立群集,其中3个节点的群集具有相同的配置. 有时流式批处理在不到1秒的时间内完成.有时需要花费10秒钟以上的时间,下面的日志才会显示在控制台中. 2016-03-29 11:35:25,044 INFO TaskSchedulerImpl:59 - Removed TaskSet 18.0, whose tasks have a ..

Spark独立连接驱动程序到工作程序

我正在尝试在本地托管Spark独立集群.我在局域网上连接了两台异构计算机.下面列出的每个体系结构都在docker上运行. 我有以下配置 主机1上的主机(端口7077已暴露) 机器1上的工人 机器2上的驱动程序 我使用一个测试应用程序来打开文件并计算其行数. 当文件在所有工作程序上复制并且我使用SparkContext.readText() 时,该应用程序正常工作 但是当当我使用 ..
发布时间:2020-09-04 02:15:03 其他开发

Spark master发生故障时会发生什么?

驱动程序是否需要不断访问主节点?还是只是 需要获得初始资源分配?如果主人是怎么办 创建Spark上下文后不可用?这是否意味着应用程序将失败? 解决方案 由于主服务器故障或网络分区而导致的第一个(可能也是最严重的)暂时错误是,您的群集将无法接受新的应用程序.这就是为什么在群集使用默认配置时将Master视为单点故障的原因. 正在运行的应用程序将确认主丢失,但否则,它们应该或多或少地继续 ..
发布时间:2020-09-04 01:57:17 其他开发

Apache Spark:客户端和群集部署模式之间的差异

TL; DR::在Spark Standalone集群中,客户端和集群部署模式之间有什么区别?如何设置应用程序将在哪种模式下运行? 我们有一个Spark Standalone集群,其中包含三台机器,所有机器都带有Spark 1.6.1: 一台主计算机,这也是使用spark-submit 运行我们的应用程序的地方 两台相同的工作机 从Spark文档中,我读到: (...)对 ..
发布时间:2020-09-03 23:56:12 其他开发

Spark独立数字执行器/核心控制

因此,我有一个带有16核和64GB RAM的Spark独立服务器.我在服务器上同时运行了master和worker.我没有启用动态分配.我正在使用Spark 2.0 我不了解的是我提交工作并指定以下内容: --num-executors 2 --executor-cores 2 仅应占用4个核心.但是,提交作业时,它将占用全部16个核心,并且无论绕开num-executors参数 ..
发布时间:2020-09-03 23:33:07 其他开发

找不到Apache Spark方法sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;

在spark-shell中运行自动数据处理脚本时遇到此问题.前几次迭代可以正常工作,但总是迟早会遇到此错误.我用谷歌搜索了这个问题,但没有找到完全匹配的结果.其他类似问题不在Spark上下文范围内.我想这可能与JVM版本有关,但我无法弄清楚如何解决该问题. 我在Spark独立集群中使用了2台机器. 1号机器Java信息: java 10.0.2 2018-07-17 Java(T ..