apache-spark 第11页 - IT屋-程序员软件开发技术分享社区

无法绑定到:spark-master，使用具有两个工作人员的远程集群

我正在设法让本地主服务器和两个远程工作人员能够正常工作.现在，我想连接到具有相同远程工作者的远程主机.我已经尝试使用/etc/hosts 和 Internet 上的其他建议进行不同的设置组合，但没有任何效果. 主类是: public static void main(String[] args) {ScalaInterface sInterface = 新 ScalaInterface(C ..

发布时间：2022-01-04 15:41:02 binding apache-spark runtime-error 其他开发

Spark 集群充满心跳超时，执行器自行退出

我的 Apache Spark 集群正在运行一个应用程序，它给了我很多执行程序超时: 10:23:30,761 错误 ~ slave2.cluster 上的执行程序 5 丢失:执行程序心跳在 177005 毫秒后超时10:23:30,806 错误 ~ slave4.cluster 上的执行程序 1 丢失:执行程序心跳在 176991 毫秒后超时10:23:30,812 错误 ~ slave6.c ..

发布时间：2022-01-03 09:23:19 apache-spark configuration 其他开发

如何为严密的防火墙配置 Apache Spark 随机工作端口?

我正在使用 Apache Spark 运行机器学习算法和其他大数据任务.以前，我使用 spark 集群独立模式在同一台机器上运行 spark master 和 worker.现在，我添加了多台工作机器，由于防火墙严密，我必须编辑工作人员的随机端口.任何人都可以帮助如何更改随机火花端口并确切地告诉我需要编辑哪些配置文件?我阅读了 spark 文档，它说应该配置 spark-defaults.conf ..

发布时间：2022-01-03 09:16:31 configuration apache-spark worker ports 其他开发

什么是 spark.driver.maxResultSize?

ref 说: 每个分区的所有分区序列化结果的总大小限制触发操作(例如收集).应至少为 1M，或 0 表示无限.如果总大小超过此限制，作业将被中止.上限可能会导致驱动程序内存不足错误(取决于关于 JVM 中对象的 spark.driver.memory 和内存开销).环境适当的限制可以保护驱动程序免受内存不足错误的影响. 这个属性到底有什么作用?我的意思是一开始(因为我不是在与因内存不足 ..

发布时间：2022-01-03 09:09:53 apache-spark configuration driver communication distributed-computing 其他开发

SparkAppHandle 侦听器没有被调用

我正在尝试使用 play 框架在 Scala 中的 kubernetes 集群上提交 spark 2.3 作业. 我也尝试过不使用 play 框架的简单 Scala 程序. 作业正在提交到 k8 集群但 stateChanged &infoChanged 没有被调用.我也希望能够获得 handle.getAppId. 我正在使用 spark submit 提交作业，如所述这里 ..

发布时间：2022-01-02 22:03:00 scala apache-spark playframework 其他开发

apache spark:通过构建具有所有依赖项的 jar 出现 akka 版本错误

我使用 maven (mvn clean compile assembly:single) 和以下 pom 文件从我的 spark 应用程序构建了一个 jar 文件: ..

发布时间：2022-01-01 17:15:29 java maven jar apache-spark executable-jar Java开发

我如何使用 spark-env.sh.template 在 Python 3 中设置 Pyspark

因为我的 ipython3 笔记本中有这个问题，我想我必须以某种方式更改“spark-env.sh.template". 例外:worker 中的 Python 2.7 版本与驱动程序 3.4 中的版本不同，PySpark 无法在不同的次要版本下运行解决方案 Spark 尚不能与 Python 3 配合使用.如果您希望使用 Python API，您还需要一个 Python 解释器( ..

发布时间：2022-01-01 00:03:15 python python-3.x apache-spark ipython-notebook pyspark Python

将 PySpark 与 Jupyter Notebook 集成

我正在关注此站点以安装 Jupyter Notebook、PySpark 和整合两者. 当我需要创建“Jupyter 配置文件"时，我读到“Jupyter 配置文件"不再存在.所以我继续执行以下几行. $ mkdir -p ~/.ipython/kernels/pyspark$ touch ~/.ipython/kernels/pyspark/kernel.json 我打开了 kerne ..

发布时间：2022-01-01 00:03:07 apache-spark ipython pyspark jupyter jupyter-notebook 其他开发

Apache Toree 和 Spark Scala 在 Jupyter 中不起作用

我在 Jupyter 上运行 Scala Spark 时遇到问题.以下是我在 jupyter 中加载 Apache Toree - Scala 笔记本时的错误消息. root@ubuntu-2gb-sgp1-01:~# jupyter notebook --ip 0.0.0.0 --port 8888[I 03:14:54.281 NotebookApp] 从本地目录提供笔记本:/root[I ..

发布时间：2022-01-01 00:02:44 scala apache-spark jupyter-notebook apache-toree 其他开发

Spark:如何按时间范围加入 RDD

我有一个微妙的 Spark 问题，我就是无法解决这个问题. 我们有两个 RDD(来自 Cassandra).RDD1 包含Actions，RDD2 包含Historic 数据.两者都有一个可以匹配/加入的 ID.但问题是这两个表有 N:N 关系.Actions 包含多个具有相同 id 的行，Historic 也是如此.以下是两个表中的一些示例日期. Actions 时间实际上是一个时间 ..

发布时间：2021-12-31 18:12:17 cassandra apache-spark rdd 其他开发

Spark JSON 文本字段到 RDD

我有一个 cassandra 表，其中有一个名为 snapshot 的文本字段，其中包含 JSON 对象: [标识符、时间戳、快照] 我知道为了能够使用 Spark 对该字段进行转换，我需要将该 RDD 的该字段转换为另一个 RDD 以对 JSON 模式进行转换. 这样对吗?我应该如何处理? 编辑:现在我设法从单个文本字段创建一个 RDD: val conf = new Spar ..

发布时间：2021-12-31 18:11:17 scala cassandra apache-spark rdd 其他开发

如何使用 Spark DataFrame 计算 Cassandra 表的汇总统计数据?

我正在尝试获取一些 Cassandra/SPARK 数据的最小、最大平均值，但我需要使用 JAVA 来完成. import org.apache.spark.sql.DataFrame;导入静态 org.apache.spark.sql.functions.*;数据帧 df = sqlContext.read().format("org.apache.spark.sql.cassandra"). ..

发布时间：2021-12-31 18:05:00 java scala apache-spark cassandra statistics Java开发

如何改进我的 Spark 应用程序的 reducebykey 部分?

我有 64 个火花芯.我的 cassandra 集群中有超过 8000 万行数据，总计 4.2 GB.我现在需要 82 秒来处理这些数据.我希望这减少到 8 秒.对此有何想法?这甚至可能吗?谢谢. 这是我想要改进的 Spark 应用程序的一部分: axes = sqlContext.read.format("org.apache.spark.sql.cassandra")\.options ..

发布时间：2021-12-31 18:04:50 python apache-spark cassandra datastax datastax-enterprise Python

Spark最佳方法查找数据帧以提高性能

Dataframe A(百万条记录)其中一列是create_date,modified_date Dataframe B 500 记录有 start_date 和 end_date 目前的方法: 从 start_date 和 end_date 之间的 a.create_date 上的连接 b 中选择 a.*,b.* 上述工作需要半小时或更长时间才能运行. 如何提高性能 ..

发布时间：2021-12-31 18:02:16 scala apache-spark cassandra datastax-enterprise 其他开发

将 columnNames 动态传递给 cassandraTable().select()

我正在运行时从文件中读取查询并在 SPark+Cassandra 环境中执行它. 我正在执行: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = true") 在文件中查询: 选择 col1、co ..

发布时间：2021-12-31 17:59:33 scala apache-spark cassandra spark-cassandra-connector 其他开发

Spark:PySpark + Cassandra 查询性能

我在本地机器(8 核，16GB 内存)上设置了 Spark 2.0 和 Cassandra 3.0 用于测试目的，并编辑了 spark-defaults.conf 如下: spark.python.worker.memory 1gspark.executor.cores 4spark.executor.instances 4spark.sql.shuffle.partitions 4 接下来我 ..

发布时间：2021-12-31 17:55:20 apache-spark cassandra pyspark 其他开发

为什么 Spark Cassandra 连接器因 NoHostAvailableException 而失败?

我在 Scala 中使用 Spark Cassandra 连接器时遇到问题. 我正在使用这些版本: Scala 2.10.4 火花核心 1.0.2 cassandra-thrift 2.1.0(我安装的 cassandra 是 v2.1.0) cassandra-clientutil 2.1.0 cassandra-driver-core 2.0.4(推荐用于连接器?) sp ..

发布时间：2021-12-31 17:55:13 scala cassandra apache-spark 其他开发

Spark 和 Cassandra Java 应用程序:线程“main"中的异常java.lang.NoClassDefFoundError: org/apache/spark/sql/Dataset

我得到了一个惊人的 siplme java 应用程序，我几乎从这个例子中复制了它:http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2 我想要做的就是读取表数据并在 Eclipse 控制台中显示. 我的 pom.xml: ..

发布时间：2021-12-31 17:52:40 java apache-spark cassandra datastax Java开发

从 Cassandra 将宽行分布式加载到 Spark

假设我们有一个 RF = N 的 Cassandra 集群和一个包含宽行的表. 我们的表可以有这样的索引:pk/ck1/ck2/.... 如果我们从表中的一行创建一个 RDD 如下: val wide_row = sc.cassandraTable(KS, TABLE).select("c1", "c2").where("pk = ?", PK) 我注意到一个 Spark 节点拥有 ..

发布时间：2021-12-31 17:52:03 scala cassandra apache-spark 其他开发

为 Spark 集群和 Cassandra 设置和配置 Titan

在 aurelius 邮件列表以及这里在 stackoverflow 上已经有几个关于配置 Titan 以使其与 Spark 一起工作的特定问题的问题.但我认为缺少的是对使用 Titan 和 Spark 的简单设置的高级描述. 我正在寻找的是使用推荐设置的最小设置.例如，对于 Cassandra，复制因子应为 3，并且应使用专用数据中心进行分析. 根据我在 Spark、Titan 和 ..

发布时间：2021-12-31 17:49:07 apache-spark cassandra titan tinkerpop tinkerpop3 其他开发

apache-spark相关内容