apache-spark相关内容
我正在设法让本地主服务器和两个远程工作人员能够正常工作.现在,我想连接到具有相同远程工作者的远程主机.我已经尝试使用/etc/hosts 和 Internet 上的其他建议进行不同的设置组合,但没有任何效果. 主类是: public static void main(String[] args) {ScalaInterface sInterface = 新 ScalaInterface(C
..
我的 Apache Spark 集群正在运行一个应用程序,它给了我很多执行程序超时: 10:23:30,761 错误 ~ slave2.cluster 上的执行程序 5 丢失:执行程序心跳在 177005 毫秒后超时10:23:30,806 错误 ~ slave4.cluster 上的执行程序 1 丢失:执行程序心跳在 176991 毫秒后超时10:23:30,812 错误 ~ slave6.c
..
我正在使用 Apache Spark 运行机器学习算法和其他大数据任务.以前,我使用 spark 集群独立模式在同一台机器上运行 spark master 和 worker.现在,我添加了多台工作机器,由于防火墙严密,我必须编辑工作人员的随机端口.任何人都可以帮助如何更改随机火花端口并确切地告诉我需要编辑哪些配置文件?我阅读了 spark 文档,它说应该配置 spark-defaults.conf
..
ref 说: 每个分区的所有分区序列化结果的总大小限制触发操作(例如收集).应至少为 1M,或 0 表示无限.如果总大小超过此限制,作业将被中止.上限可能会导致驱动程序内存不足错误(取决于关于 JVM 中对象的 spark.driver.memory 和内存开销).环境适当的限制可以保护驱动程序免受内存不足错误的影响. 这个属性到底有什么作用?我的意思是一开始(因为我不是在与因内存不足
..
我正在尝试使用 play 框架在 Scala 中的 kubernetes 集群上提交 spark 2.3 作业. 我也尝试过不使用 play 框架的简单 Scala 程序. 作业正在提交到 k8 集群但 stateChanged &infoChanged 没有被调用.我也希望能够获得 handle.getAppId. 我正在使用 spark submit 提交作业,如所述这里
..
我使用 maven (mvn clean compile assembly:single) 和以下 pom 文件从我的 spark 应用程序构建了一个 jar 文件:
..
因为我的 ipython3 笔记本中有这个问题,我想我必须以某种方式更改“spark-env.sh.template". 例外:worker 中的 Python 2.7 版本与驱动程序 3.4 中的版本不同,PySpark 无法在不同的次要版本下运行 解决方案 Spark 尚不能与 Python 3 配合使用.如果您希望使用 Python API,您还需要一个 Python 解释器(
..
我正在关注此站点以安装 Jupyter Notebook、PySpark 和整合两者. 当我需要创建“Jupyter 配置文件"时,我读到“Jupyter 配置文件"不再存在.所以我继续执行以下几行. $ mkdir -p ~/.ipython/kernels/pyspark$ touch ~/.ipython/kernels/pyspark/kernel.json 我打开了 kerne
..
我在 Jupyter 上运行 Scala Spark 时遇到问题.以下是我在 jupyter 中加载 Apache Toree - Scala 笔记本时的错误消息. root@ubuntu-2gb-sgp1-01:~# jupyter notebook --ip 0.0.0.0 --port 8888[I 03:14:54.281 NotebookApp] 从本地目录提供笔记本:/root[I
..
我有一个微妙的 Spark 问题,我就是无法解决这个问题. 我们有两个 RDD(来自 Cassandra).RDD1 包含Actions,RDD2 包含Historic 数据.两者都有一个可以匹配/加入的 ID.但问题是这两个表有 N:N 关系.Actions 包含多个具有相同 id 的行,Historic 也是如此.以下是两个表中的一些示例日期. Actions 时间实际上是一个时间
..
我有一个 cassandra 表,其中有一个名为 snapshot 的文本字段,其中包含 JSON 对象: [标识符、时间戳、快照] 我知道为了能够使用 Spark 对该字段进行转换,我需要将该 RDD 的该字段转换为另一个 RDD 以对 JSON 模式进行转换. 这样对吗?我应该如何处理? 编辑:现在我设法从单个文本字段创建一个 RDD: val conf = new Spar
..
我正在尝试获取一些 Cassandra/SPARK 数据的最小、最大平均值,但我需要使用 JAVA 来完成. import org.apache.spark.sql.DataFrame;导入静态 org.apache.spark.sql.functions.*;数据帧 df = sqlContext.read().format("org.apache.spark.sql.cassandra").
..
我有 64 个火花芯.我的 cassandra 集群中有超过 8000 万行数据,总计 4.2 GB.我现在需要 82 秒来处理这些数据.我希望这减少到 8 秒.对此有何想法?这甚至可能吗?谢谢. 这是我想要改进的 Spark 应用程序的一部分: axes = sqlContext.read.format("org.apache.spark.sql.cassandra")\.options
..
Dataframe A(百万条记录)其中一列是create_date,modified_date Dataframe B 500 记录有 start_date 和 end_date 目前的方法: 从 start_date 和 end_date 之间的 a.create_date 上的连接 b 中选择 a.*,b.* 上述工作需要半小时或更长时间才能运行. 如何提高性能
..
我正在运行时从文件中读取查询并在 SPark+Cassandra 环境中执行它. 我正在执行: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = true") 在文件中查询: 选择 col1、co
..
我在本地机器(8 核,16GB 内存)上设置了 Spark 2.0 和 Cassandra 3.0 用于测试目的,并编辑了 spark-defaults.conf 如下: spark.python.worker.memory 1gspark.executor.cores 4spark.executor.instances 4spark.sql.shuffle.partitions 4 接下来我
..
我在 Scala 中使用 Spark Cassandra 连接器时遇到问题. 我正在使用这些版本: Scala 2.10.4 火花核心 1.0.2 cassandra-thrift 2.1.0(我安装的 cassandra 是 v2.1.0) cassandra-clientutil 2.1.0 cassandra-driver-core 2.0.4(推荐用于连接器?) sp
..
我得到了一个惊人的 siplme java 应用程序,我几乎从这个例子中复制了它:http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2 我想要做的就是读取表数据并在 Eclipse 控制台中显示. 我的 pom.xml:
..
假设我们有一个 RF = N 的 Cassandra 集群和一个包含宽行的表. 我们的表可以有这样的索引:pk/ck1/ck2/.... 如果我们从表中的一行创建一个 RDD 如下: val wide_row = sc.cassandraTable(KS, TABLE).select("c1", "c2").where("pk = ?", PK) 我注意到一个 Spark 节点拥有
..
在 aurelius 邮件列表以及这里在 stackoverflow 上已经有几个关于配置 Titan 以使其与 Spark 一起工作的特定问题的问题.但我认为缺少的是对使用 Titan 和 Spark 的简单设置的高级描述. 我正在寻找的是使用推荐设置的最小设置.例如,对于 Cassandra,复制因子应为 3,并且应使用专用数据中心进行分析. 根据我在 Spark、Titan 和
..