apache-spark-standalone相关内容
TL;DR: 在 Spark Standalone 集群中,客户端和集群部署模式有什么区别?如何设置我的应用程序将在哪种模式下运行? 我们有一个包含三台机器的 Spark Standalone 集群,所有机器都使用 Spark 1.6.1: 一台主机,也是我们使用 spark-submit 运行我们的应用程序的地方2 台相同的工作机器 来自 Spark 文档,我读到: (
..
我是 Apache Spark 的新手,我刚刚了解到 Spark 支持三种类型的集群: 独立 - 意味着 Spark 将管理自己的集群 YARN - 使用 Hadoop 的 YARN 资源管理器 Mesos - Apache 的专用资源管理器项目 我想我应该先尝试独立.以后需要搭建一个大集群(上百个实例). 我应该选择哪种集群类型? 解决方案 我认为最好的回答是那些在
..
所以我有一个具有 16 个内核和 64GB RAM 的 Spark 独立服务器.我在服务器上同时运行 master 和 worker.我没有启用动态分配.我在 Spark 2.0 上 我不明白的是什么时候提交我的工作并指定: --num-executors 2--executor-cores 2 应该只占用 4 个内核.然而,当提交作业时,它会占用所有 16 个内核并启动 8 个执行程序
..
我正在尝试在 Windows 上使用独立集群管理器部署 Spark 应用程序,因此在主端(IP:192...186)我运行: \bin>spark-class org.apache.spark.deploy.master.Master 在从端(IP:192...75)我跑了: \bin>spark-class org.apache.spark.deploy.worker.Work
..
我有一个可以成功启动的集群,至少在我看到此信息的Web UI上显示的是 URL:spark://Name25:7077REST URL:spark://Name25:6066(集群模式)活着的工人:10使用的核心:总数192,已使用0使用的内存:总计364.0 GB,已使用0.0 B应用程序:0运行中,5已完成驱动程序:0运行中,5已完成状态:ALIVE 如果我以这种方式使用它,我使用了S
..
我是Spark的新手,并从Apache(Spark-2.1.0-bin-hadoop2.7)下载了预编译的Spark二进制文件 提交我的scala(2.11.8)超级jar时,群集抛出和错误: java.lang.IllegalStateException:库目录'/root/spark/assembly/target/scala-2.10/jars'不存在;确保构建了Spark 我
..
我正在运行一个小型Spark集群,其中有两个EC2实例(m4.xlarge). 到目前为止,我一直在一个节点上运行spark主服务器,在另一个节点上运行单个spark从属服务器(4个核心,16g内存),然后在主节点上以客户端部署模式部署我的spark(流)应用程序.设置摘要是: -执行者内存16克 -执行者核心4 -驱动程序内存8克 -驱动程序核心2 -部署模式
..
我已经在Windows上安装了PySpark,直到昨天都没问题.我正在使用 windows 10 , PySpark版本2.3.3(预构建版本), java版本"1.8.0_201" .昨天,当我尝试创建Spark会话时,遇到了以下错误. 异常回溯(最后一次调用最近)在中---->1 spark = SparkSes
..
我有一个Spark Standalone(不是YARN/Mesos)集群和一个正在(在客户端模式下)运行的驱动程序应用程序,该应用程序与该集群通信以执行其任务.但是,如果我关闭并重新启动Spark master和worker,驱动程序将不会重新连接到master并恢复其工作. 也许我对Spark Master和驱动程序之间的关系感到困惑.在这种情况下,主站是否负责重新连接到驱动程序?如果是这
..
我已经在12个节点(以群集独立模式)上安装了spark2.0.0,当我启动它时,我得到了: ./ sbin / start-all.sh 开始org.apache .spark.deploy.master.Master,登录到/home/mName/fer/spark-2.0.0-bin-hadoop2.7/logs/spark-mName-org.apache.
..
基本上,主节点也充当从节点之一.一旦主服务器上的从服务器完成,它将调用SparkContext停止,因此此命令将传播到所有从服务器,这些从服务器在处理过程中停止执行. 错误登录其中一个工作程序: INFO SparkHadoopMapRedUtil:try_201612061001_0008_m_000005_18112:已提交 INFO执行程序:在阶段8.0(TID 18112
..
直到现在,我只在YARN作为资源管理器的Hadoop集群上使用了Spark.在这种类型的群集中,我确切地知道要运行多少个执行程序以及资源管理的工作方式.但是,知道我正在尝试使用独立Spark集群,我有些困惑.在错误的地方纠正我. 在本文中,默认情况下,工作节点使用节点的所有内存减去1 GB.但是我知道通过使用SPARK_WORKER_MEMORY,我们可以使用更少的内存.例如,如果节点的总内
..
希望获得有关独立式和纱线执行火花的一些见解.我们有一个4节点的cloudera集群,当前在YARN模式下运行时,应用程序的性能不到在独立模式下运行时所获得的性能的一半.是否有人对可能造成这种情况的因素有所了解. 解决方案 基本上,您的数据和群集太小. 大数据技术的真正目的是处理无法容纳在单个系统上的数据.鉴于您的集群有4个节点,可能适合POC工作,但您不应认为这对基准测试应用程序是可
..
我们正在使用具有8个核心和32GB Ram的Spark独立群集,其中3个节点的群集具有相同的配置. 有时流式批处理在不到1秒的时间内完成.有时需要花费10秒钟以上的时间,下面的日志才会显示在控制台中. 2016-03-29 11:35:25,044 INFO TaskSchedulerImpl:59 - Removed TaskSet 18.0, whose tasks have a
..
我正在尝试在Windows 10上安装Spark 1.6.1,到目前为止,我已经完成了以下操作... 下载了spark 1.6.1,解压到某个目录,然后设置SPARK_HOME 下载了scala 2.11.8,解压到某个目录,然后设置SCALA_HOME 设置_JAVA_OPTION环境变量 通过 https://github.com/steveloughran/winutils.gi
..
我正在尝试在本地托管Spark独立集群.我在局域网上连接了两台异构计算机.下面列出的每个体系结构都在docker上运行. 我有以下配置 主机1上的主机(端口7077已暴露) 机器1上的工人 机器2上的驱动程序 我使用一个测试应用程序来打开文件并计算其行数. 当文件在所有工作程序上复制并且我使用SparkContext.readText() 时,该应用程序正常工作 但是当当我使用
..
驱动程序是否需要不断访问主节点?还是只是 需要获得初始资源分配?如果主人是怎么办 创建Spark上下文后不可用?这是否意味着应用程序将失败? 解决方案 由于主服务器故障或网络分区而导致的第一个(可能也是最严重的)暂时错误是,您的群集将无法接受新的应用程序.这就是为什么在群集使用默认配置时将Master视为单点故障的原因. 正在运行的应用程序将确认主丢失,但否则,它们应该或多或少地继续
..
TL; DR::在Spark Standalone集群中,客户端和集群部署模式之间有什么区别?如何设置应用程序将在哪种模式下运行? 我们有一个Spark Standalone集群,其中包含三台机器,所有机器都带有Spark 1.6.1: 一台主计算机,这也是使用spark-submit 运行我们的应用程序的地方 两台相同的工作机 从Spark文档中,我读到: (...)对
..
因此,我有一个带有16核和64GB RAM的Spark独立服务器.我在服务器上同时运行了master和worker.我没有启用动态分配.我正在使用Spark 2.0 我不了解的是我提交工作并指定以下内容: --num-executors 2 --executor-cores 2 仅应占用4个核心.但是,提交作业时,它将占用全部16个核心,并且无论绕开num-executors参数
..
在spark-shell中运行自动数据处理脚本时遇到此问题.前几次迭代可以正常工作,但总是迟早会遇到此错误.我用谷歌搜索了这个问题,但没有找到完全匹配的结果.其他类似问题不在Spark上下文范围内.我想这可能与JVM版本有关,但我无法弄清楚如何解决该问题. 我在Spark独立集群中使用了2台机器. 1号机器Java信息: java 10.0.2 2018-07-17 Java(T
..