apache-spark-standalone - IT屋-程序员软件开发技术分享社区

Apache Spark:客户端和集群部署模式的区别

TL;DR: 在 Spark Standalone 集群中，客户端和集群部署模式有什么区别?如何设置我的应用程序将在哪种模式下运行? 我们有一个包含三台机器的 Spark Standalone 集群，所有机器都使用 Spark 1.6.1: 一台主机，也是我们使用 spark-submit 运行我们的应用程序的地方2 台相同的工作机器来自 Spark 文档，我读到: ( ..

发布时间：2021-12-09 23:53:21 apache-spark apache-spark-standalone 其他开发

我应该为 Spark 选择哪种集群类型?

我是 Apache Spark 的新手，我刚刚了解到 Spark 支持三种类型的集群: 独立 - 意味着 Spark 将管理自己的集群 YARN - 使用 Hadoop 的 YARN 资源管理器 Mesos - Apache 的专用资源管理器项目我想我应该先尝试独立.以后需要搭建一个大集群(上百个实例). 我应该选择哪种集群类型? 解决方案我认为最好的回答是那些在 ..

发布时间：2021-11-12 05:42:07 apache-spark hadoop-yarn mesos apache-spark-standalone 其他开发

Spark Standalone Number Executors/Cores 控制

所以我有一个具有 16 个内核和 64GB RAM 的 Spark 独立服务器.我在服务器上同时运行 master 和 worker.我没有启用动态分配.我在 Spark 2.0 上我不明白的是什么时候提交我的工作并指定: --num-executors 2--executor-cores 2 应该只占用 4 个内核.然而，当提交作业时，它会占用所有 16 个内核并启动 8 个执行程序 ..

发布时间：2021-11-12 05:31:20 apache-spark apache-spark-standalone 其他开发

Worker:无法连接到 spark apache 上的 master

我正在尝试在 Windows 上使用独立集群管理器部署 Spark 应用程序，因此在主端(IP:192...186)我运行: \bin>spark-class org.apache.spark.deploy.master.Master 在从端(IP:192...75)我跑了: \bin>spark-class org.apache.spark.deploy.worker.Work ..

发布时间：2021-09-28 19:59:12 apache-spark worker master apache-spark-standalone 其他开发

找不到Spark应用程序输出

我有一个可以成功启动的集群，至少在我看到此信息的Web UI上显示的是 URL:spark://Name25:7077REST URL:spark://Name25:6066(集群模式)活着的工人:10使用的核心:总数192，已使用0使用的内存:总计364.0 GB，已使用0.0 B应用程序:0运行中，5已完成驱动程序:0运行中，5已完成状态:ALIVE 如果我以这种方式使用它，我使用了S ..

发布时间：2021-04-08 20:09:38 java linux apache-spark apache-spark-standalone Java开发

独立集群上的spark-submit抱怨scala-2.10 jar不存在

我是Spark的新手，并从Apache(Spark-2.1.0-bin-hadoop2.7)下载了预编译的Spark二进制文件提交我的scala(2.11.8)超级jar时，群集抛出和错误: java.lang.IllegalStateException:库目录'/root/spark/assembly/target/scala-2.10/jars'不存在；确保构建了Spark 我 ..

发布时间：2021-04-08 20:03:18 scala apache-spark apache-spark-standalone 其他开发

强制驱动程序在以"--deploy-mode cluster"运行的spark独立群集中的特定从属服务器上运行.

我正在运行一个小型Spark集群，其中有两个EC2实例(m4.xlarge). 到目前为止，我一直在一个节点上运行spark主服务器，在另一个节点上运行单个spark从属服务器(4个核心，16g内存)，然后在主节点上以客户端部署模式部署我的spark(流)应用程序.设置摘要是: -执行者内存16克 -执行者核心4 -驱动程序内存8克 -驱动程序核心2 -部署模式 ..

发布时间：2021-04-08 19:57:50 apache-spark apache-spark-standalone 其他开发

PySpark:无法创建SparkSession.(Java网关错误)

我已经在Windows上安装了PySpark，直到昨天都没问题.我正在使用 windows 10 ， PySpark版本2.3.3(预构建版本)， java版本"1.8.0_201" .昨天，当我尝试创建Spark会话时，遇到了以下错误. 异常回溯(最后一次调用最近)在中---->1 spark = SparkSes ..

发布时间：2021-04-08 19:52:37 java apache-spark hadoop pyspark apache-spark-standalone Java开发

我有一个Spark Standalone(不是YARN/Mesos)集群和一个正在(在客户端模式下)运行的驱动程序应用程序，该应用程序与该集群通信以执行其任务.但是，如果我关闭并重新启动Spark master和worker，驱动程序将不会重新连接到master并恢复其工作. 也许我对Spark Master和驱动程序之间的关系感到困惑.在这种情况下，主站是否负责重新连接到驱动程序?如果是这 ..

发布时间：2021-04-08 19:39:41 apache-spark apache-spark-standalone 其他开发

无法访问Spark Web UI

我已经在12个节点（以群集独立模式）上安装了spark2.0.0，当我启动它时，我得到了： ./ sbin / start-all.sh 开始org.apache .spark.deploy.master.Master，登录到/home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache. ..

发布时间：2020-10-03 02:45:54 ubuntu apache-spark ssh cluster-computing apache-spark-standalone 其他开发

驱动程序命令关闭后，Spark工作者停止了工作

基本上，主节点也充当从节点之一.一旦主服务器上的从服务器完成，它将调用SparkContext停止，因此此命令将传播到所有从服务器，这些从服务器在处理过程中停止执行. 错误登录其中一个工作程序: INFO SparkHadoopMapRedUtil:try_201612061001_0008_m_000005_18112:已提交 INFO执行程序:在阶段8.0(TID 18112 ..

发布时间：2020-09-04 07:05:41 apache-spark apache-spark-standalone 其他开发

使用Spark独立集群如何在工作节点上管理多个执行者?

直到现在，我只在YARN作为资源管理器的Hadoop集群上使用了Spark.在这种类型的群集中，我确切地知道要运行多少个执行程序以及资源管理的工作方式.但是，知道我正在尝试使用独立Spark集群，我有些困惑.在错误的地方纠正我. 在本文中，默认情况下，工作节点使用节点的所有内存减去1 GB.但是我知道通过使用SPARK_WORKER_MEMORY，我们可以使用更少的内存.例如，如果节点的总内 ..

发布时间：2020-09-04 06:40:17 scala apache-spark hadoop cluster-computing apache-spark-standalone 其他开发

Spark在独立版本中比在YARN中运行更快

希望获得有关独立式和纱线执行火花的一些见解.我们有一个4节点的cloudera集群，当前在YARN模式下运行时，应用程序的性能不到在独立模式下运行时所获得的性能的一半.是否有人对可能造成这种情况的因素有所了解. 解决方案基本上，您的数据和群集太小. 大数据技术的真正目的是处理无法容纳在单个系统上的数据.鉴于您的集群有4个节点，可能适合POC工作，但您不应认为这对基准测试应用程序是可 ..

发布时间：2020-09-04 04:15:02 performance apache-spark spark-streaming yarn apache-spark-standalone 其他开发

连续INFO JobScheduler:59-在我的Spark Standalone集群中添加了时间为*** ms的作业

我们正在使用具有8个核心和32GB Ram的Spark独立群集，其中3个节点的群集具有相同的配置. 有时流式批处理在不到1秒的时间内完成.有时需要花费10秒钟以上的时间，下面的日志才会显示在控制台中. 2016-03-29 11:35:25,044 INFO TaskSchedulerImpl:59 - Removed TaskSet 18.0, whose tasks have a ..

发布时间：2020-09-04 04:04:00 apache-spark spark-streaming apache-spark-standalone 其他开发

Winutils Spark Windows安装env_variable

我正在尝试在Windows 10上安装Spark 1.6.1，到目前为止，我已经完成了以下操作... 下载了spark 1.6.1，解压到某个目录，然后设置SPARK_HOME 下载了scala 2.11.8，解压到某个目录，然后设置SCALA_HOME 设置_JAVA_OPTION环境变量通过 https://github.com/steveloughran/winutils.gi ..

发布时间：2020-09-04 02:34:58 windows git scala apache-spark apache-spark-standalone 其他开发

Spark独立连接驱动程序到工作程序

我正在尝试在本地托管Spark独立集群.我在局域网上连接了两台异构计算机.下面列出的每个体系结构都在docker上运行. 我有以下配置主机1上的主机(端口7077已暴露) 机器1上的工人机器2上的驱动程序我使用一个测试应用程序来打开文件并计算其行数. 当文件在所有工作程序上复制并且我使用SparkContext.readText() 时，该应用程序正常工作但是当当我使用 ..

发布时间：2020-09-04 02:15:03 apache-spark spark-submit apache-spark-standalone 其他开发

Spark master发生故障时会发生什么?

驱动程序是否需要不断访问主节点?还是只是需要获得初始资源分配?如果主人是怎么办创建Spark上下文后不可用?这是否意味着应用程序将失败? 解决方案由于主服务器故障或网络分区而导致的第一个(可能也是最严重的)暂时错误是，您的群集将无法接受新的应用程序.这就是为什么在群集使用默认配置时将Master视为单点故障的原因. 正在运行的应用程序将确认主丢失，但否则，它们应该或多或少地继续 ..

发布时间：2020-09-04 01:57:17 apache-spark apache-spark-standalone 其他开发

Apache Spark:客户端和群集部署模式之间的差异

TL; DR::在Spark Standalone集群中，客户端和集群部署模式之间有什么区别?如何设置应用程序将在哪种模式下运行? 我们有一个Spark Standalone集群，其中包含三台机器，所有机器都带有Spark 1.6.1: 一台主计算机，这也是使用spark-submit 运行我们的应用程序的地方两台相同的工作机从Spark文档中，我读到: (...)对 ..

发布时间：2020-09-03 23:56:12 apache-spark apache-spark-standalone 其他开发

Spark独立数字执行器/核心控制

因此，我有一个带有16核和64GB RAM的Spark独立服务器.我在服务器上同时运行了master和worker.我没有启用动态分配.我正在使用Spark 2.0 我不了解的是我提交工作并指定以下内容: --num-executors 2 --executor-cores 2 仅应占用4个核心.但是，提交作业时，它将占用全部16个核心，并且无论绕开num-executors参数 ..

发布时间：2020-09-03 23:33:07 apache-spark apache-spark-standalone 其他开发

找不到Apache Spark方法sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;

在spark-shell中运行自动数据处理脚本时遇到此问题.前几次迭代可以正常工作，但总是迟早会遇到此错误.我用谷歌搜索了这个问题，但没有找到完全匹配的结果.其他类似问题不在Spark上下文范围内.我想这可能与JVM版本有关，但我无法弄清楚如何解决该问题. 我在Spark独立集群中使用了2台机器. 1号机器Java信息: java 10.0.2 2018-07-17 Java(T ..

发布时间：2020-07-25 18:44:06 scala apache-spark apache-spark-standalone spark-shell 其他开发

apache-spark-standalone相关内容