apache-spark相关内容

无法绑定到:spark-master,使用具有两个工作人员的远程集群

我正在设法让本地主服务器和两个远程工作人员能够正常工作.现在,我想连接到具有相同远程工作者的远程主机.我已经尝试使用/etc/hosts 和 Internet 上的其他建议进行不同的设置组合,但没有任何效果. 主类是: public static void main(String[] args) {ScalaInterface sInterface = 新 ScalaInterface(C ..
发布时间:2022-01-04 15:41:02 其他开发

Spark 集群充满心跳超时,执行器自行退出

我的 Apache Spark 集群正在运行一个应用程序,它给了我很多执行程序超时: 10:23:30,761 错误 ~ slave2.cluster 上的执行程序 5 丢失:执行程序心跳在 177005 毫秒后超时10:23:30,806 错误 ~ slave4.cluster 上的执行程序 1 丢失:执行程序心跳在 176991 毫秒后超时10:23:30,812 错误 ~ slave6.c ..
发布时间:2022-01-03 09:23:19 其他开发

如何为严密的防火墙配置 Apache Spark 随机工作端口?

我正在使用 Apache Spark 运行机器学习算法和其他大数据任务.以前,我使用 spark 集群独立模式在同一台机器上运行 spark master 和 worker.现在,我添加了多台工作机器,由于防火墙严密,我必须编辑工作人员的随机端口.任何人都可以帮助如何更改随机火花端口并确切地告诉我需要编辑哪些配置文件?我阅读了 spark 文档,它说应该配置 spark-defaults.conf ..
发布时间:2022-01-03 09:16:31 其他开发

什么是 spark.driver.maxResultSize?

ref 说: 每个分区的所有分区序列化结果的总大小限制触发操作(例如收集).应至少为 1M,或 0 表示无限.如果总大小超过此限制,作业将被中止.上限可能会导致驱动程序内存不足错误(取决于关于 JVM 中对象的 spark.driver.memory 和内存开销).环境适当的限制可以保护驱动程序免受内存不足错误的影响. 这个属性到底有什么作用?我的意思是一开始(因为我不是在与因内存不足 ..

SparkAppHandle 侦听器没有被调用

我正在尝试使用 play 框架在 Scala 中的 kubernetes 集群上提交 spark 2.3 作业. 我也尝试过不使用 play 框架的简单 Scala 程序. 作业正在提交到 k8 集群但 stateChanged &infoChanged 没有被调用.我也希望能够获得 handle.getAppId. 我正在使用 spark submit 提交作业,如所述这里 ..
发布时间:2022-01-02 22:03:00 其他开发

我如何使用 spark-env.sh.template 在 Python 3 中设置 Pyspark

因为我的 ipython3 笔记本中有这个问题,我想我必须以某种方式更改“spark-env.sh.template". 例外:worker 中的 Python 2.7 版本与驱动程序 3.4 中的版本不同,PySpark 无法在不同的次要版本下运行 解决方案 Spark 尚不能与 Python 3 配合使用.如果您希望使用 Python API,您还需要一个 Python 解释器( ..
发布时间:2022-01-01 00:03:15 Python

Spark:如何按时间范围加入 RDD

我有一个微妙的 Spark 问题,我就是无法解决这个问题. 我们有两个 RDD(来自 Cassandra).RDD1 包含Actions,RDD2 包含Historic 数据.两者都有一个可以匹配/加入的 ID.但问题是这两个表有 N:N 关系.Actions 包含多个具有相同 id 的行,Historic 也是如此.以下是两个表中的一些示例日期. Actions 时间实际上是一个时间 ..
发布时间:2021-12-31 18:12:17 其他开发

Spark JSON 文本字段到 RDD

我有一个 cassandra 表,其中有一个名为 snapshot 的文本字段,其中包含 JSON 对象: [标识符、时间戳、快照] 我知道为了能够使用 Spark 对该字段进行转换,我需要将该 RDD 的该字段转换为另一个 RDD 以对 JSON 模式进行转换. 这样对吗?我应该如何处理? 编辑:现在我设法从单个文本字段创建一个 RDD: val conf = new Spar ..
发布时间:2021-12-31 18:11:17 其他开发

如何改进我的 Spark 应用程序的 reducebykey 部分?

我有 64 个火花芯.我的 cassandra 集群中有超过 8000 万行数据,总计 4.2 GB.我现在需要 82 秒来处理这些数据.我希望这减少到 8 秒.对此有何想法?这甚至可能吗?谢谢. 这是我想要改进的 Spark 应用程序的一部分: axes = sqlContext.read.format("org.apache.spark.sql.cassandra")\.options ..
发布时间:2021-12-31 18:04:50 Python

从 Cassandra 将宽行分布式加载到 Spark

假设我们有一个 RF = N 的 Cassandra 集群和一个包含宽行的表. 我们的表可以有这样的索引:pk/ck1/ck2/.... 如果我们从表中的一行创建一个 RDD 如下: val wide_row = sc.cassandraTable(KS, TABLE).select("c1", "c2").where("pk = ?", PK) 我注意到一个 Spark 节点拥有 ..
发布时间:2021-12-31 17:52:03 其他开发

为 Spark 集群和 Cassandra 设置和配置 Titan

在 aurelius 邮件列表以及这里在 stackoverflow 上已经有几个关于配置 Titan 以使其与 Spark 一起工作的特定问题的问题.但我认为缺少的是对使用 Titan 和 Spark 的简单设置的高级描述. 我正在寻找的是使用推荐设置的最小设置.例如,对于 Cassandra,复制因子应为 3,并且应使用专用数据中心进行分析. 根据我在 Spark、Titan 和 ..
发布时间:2021-12-31 17:49:07 其他开发