apache-spark相关内容

建立一个 SparkSession

我在 Zeppelin 中担任口译员.我正在使用 Spark2.0,我建立了一个会话:创建 解决方案 通常,您不应在 Zeppelin 中初始化 SparkSession 或 SparkContext.Zeppelin 笔记本配置为为您创建会话,其正确行为取决于使用提供的对象. 初始化您的 SparkSession 会破坏 Zeppelin 的核心功能,并且在最坏的情况下,多个 Sp ..
发布时间:2021-11-28 21:46:12 其他开发

Zeppelin:Scala 数据框到 python

如果我有一个带有 DataFrame 的 Scala 段落,我可以与 python 共享和使用它.(据我所知,pyspark 使用 py4j) 我试过这个: Scala 段落: x.printSchemaz.put("xtable", x ) Python 段落: %pyspark将 numpy 导入为 np将熊猫导入为 pd导入 matplotlib.pyplot 作为 plt ..
发布时间:2021-11-28 21:45:51 Python

Spark 从一行中提取值

我有以下数据框 val transactions_with_counts = sqlContext.sql("""SELECT user_id AS user_id, category_id AS category_id,COUNT(category_id) FROM 交易 GROUP BY user_id, category_id""") 我正在尝试将行转换为 Rating 对象,但由于 x ..
发布时间:2021-11-28 21:44:21 其他开发

对火花数据帧的同一列进行多个聚合操作

我有三个包含以下信息的字符串类型数组: groupBy 数组:包含我想要对数据进行分组的列的名称. 聚合数组:包含我要聚合的列的名称. operations 数组:包含我想要执行的聚合操作 我正在尝试使用 spark 数据框来实现这一点.Spark 数据帧提供了一个 agg(),您可以在其中传递 Map [String,String](列名和各自的聚合操作)作为输入,但是我想对数据 ..
发布时间:2021-11-28 21:44:12 其他开发

PySpark &MLLib:随机森林特征的重要性

我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性.但是,我在文档的任何地方都没有看到这样做的示例,也不是 RandomForestModel 的方法. 如何从 PySpark 中的 RandomForestModel 回归器或分类器中提取特征重要性? 这是文档中提供的示例代码,让我们开始;但是,其中没有提及特征重要性. from pyspark.mllib.tre ..
发布时间:2021-11-28 21:43:43 其他开发

使用 Word2VecModel.transform() 在地图功能中不起作用

我使用 Spark 构建了一个 Word2Vec 模型并将其保存为模型.现在,我想在另一个代码中使用它作为离线模型.我已经加载了模型并用它来呈现一个词的向量(例如你好),它运行良好.但是,我需要在 RDD 中使用 map 调用很多词. 当我在 map 函数中调用 model.transform() 时,它抛出这个错误: “看来您正试图从广播中引用 SparkContext"例外:您似乎 ..
发布时间:2021-11-28 21:43:33 Python

如何为 Spark MLlib 模型提供服务?

我正在评估用于基于 ML 的生产应用程序的工具,我们的选择之一是 Spark MLlib,但我对如何在训练后提供模型有一些疑问? 例如,在 Azure ML 中,一旦经过训练,模型就会作为 Web 服务公开,可以从任何应用程序中使用,这与 Amazon ML 的情况类似. 您如何在 Apache Spark 中提供/部署 ML 模型? 解决方案 一方面,使用 Spark 构建的 ..
发布时间:2021-11-28 21:43:07 AI人工智能

如何使用 Spark 找到中位数和分位数

如何使用分布式方法、IPython 和 Spark 找到整数 RDD 的中位数?RDD 大约有 700,000 个元素,因此太大而无法收集和找到中位数. 这个问题和这个问题类似.但是,问题的答案是使用 Scala,我不知道. 如何使用 Apache Spark 计算准确的中位数? 使用 Scala 答案的思路,我正在尝试用 Python 编写一个类似的答案. 我知道我首先要 ..
发布时间:2021-11-28 21:42:51 Python

在 spark join 中,表顺序和猪一样重要吗?

有关Spark - 加入 2 PairRDD 元素 在 pig 中进行常规 join 时,join 中的最后一个表不会被带入内存而是通过流式传输,因此如果 A 每个键的基数较小而 B 的基数较大,则执行 join 明显更好A、B比join A by B,从性能角度(避免溢出和OOM) spark 中有类似的概念吗?我没有看到任何这样的建议,想知道这怎么可能?在我看来,实现与 pig 中 ..
发布时间:2021-11-28 21:41:48 其他开发

如何连接到 Amazon Redshift 或 Apache Spark 中的其他数据库?

我正在尝试通过 Spark 连接到 Amazon Redshift,因此我可以将 S3 上的数据与 RS 集群上的数据连接起来.我在这里找到了一些非常简洁的文档,用于连接到 JDBC 的能力: https://spark.apache.org/docs/1.3.1/sql-programming-guide.html#jdbc-to-other-databases 加载命令看起来相当简 ..
发布时间:2021-11-27 10:36:02 其他开发

spark流检查点恢复非常非常慢

目标:通过 Spark 流从 Kinesis 读取数据并将数据以 Parquet 格式存储到 S3. 情况:应用程序最初运行良好,运行批次为 1 小时,处理时间平均不到 30 分钟.出于某种原因,可以说应用程序崩溃了,我们尝试从检查点重新启动.处理现在需要永远并且不会继续前进.我们试图以 1 分钟的批处理间隔测试相同的东西,处理运行良好,批处理需要 1.2 分钟才能完成.当我们从检查点恢复时,每 ..
发布时间:2021-11-27 10:21:49 其他开发

Spark Streaming 1.6.0 中检查点/WAL 的可靠性问题

说明 我们在 Scala 中有一个 Spark Streaming 1.5.2 应用程序,它从 Kinesis Stream 读取 JSON 事件,执行一些转换/聚合并将结果写入不同的 S3 前缀.当前批处理间隔为 60 秒.我们有 3000-7000 个事件/秒.我们正在使用检查点来保护我们免于丢失聚合. 它运行良好有一段时间了,从异常中恢复,甚至集群重新启动.我们最近重新编译了 S ..
发布时间:2021-11-27 10:20:02 其他开发

Apache Spark Kinesis 示例不起作用

我正在尝试运行 JavaKinesisWordCountASL 示例. 该示例似乎连接到我的 Kinesis Stream 并从该流中获取数据(如下面的日志所示).但是,Sparks 不会调用示例中传递给 unionStreams.flatMap 方法的调用函数,也不会打印任何字数. 我尝试使用 Java 8 和 Java 7 运行.我在 ubuntu 实例上运行它.同样的例子也适用于 ..
发布时间:2021-11-27 10:19:23 Java开发

EMR Spark - TransportClient:无法发送 RPC

我收到此错误,我尝试增加集群实例以及执行程序和驱动程序参数中的内存,但没有成功. 17/05/07 23:17:07 错误 TransportClient:无法将 RPC 6465703946954088562 发送到 ip-172-30-12-164.eu-central-1.compute.internal/172.30.12.164: java.nio.channels.ClosedCha ..
发布时间:2021-11-27 10:11:40 其他开发

Pyspark --py-files 不起作用

我使用它作为文档建议 http://spark.apache.org/docs/1.1.1/submitting-applications.html spsark 1.1.0 版 ./spark/bin/spark-submit --py-files/home/hadoop/loganalysis/parser-src.zip \/home/hadoop/loganalysis/ship- ..
发布时间:2021-11-27 10:10:45 Python

使用多个 S3 帐户运行 EMR Spark

我有一个 EMR Spark 作业,需要从一个帐户的 S3 读取数据并写入另一个帐户. 我把我的工作分成两步. 从 S3 读取数据(不需要凭据,因为我的 EMR 集群在同一个帐户中). 读取第 1 步创建的本地 HDFS 中的数据并将其写入另一个帐户中的 S3 存储桶. 我已尝试设置 hadoopConfiguration: sc.hadoopConfiguration.se ..
发布时间:2021-11-27 10:10:28 其他开发

EMR/Spark 的 S3 写入时间极慢

我写信是想看看是否有人知道如何通过在 EMR 中运行的 Spark 加快 S3 写入时间? 我的 Spark 作业需要 4 个多小时才能完成,但是集群仅在前 1.5 小时内处于负载状态. 我很好奇 Spark 一直在做什么.我查看了日志,发现了许多 s3 mv 命令,每个文件一个.然后直接查看 S3,我看到我的所有文件都在 _temporary 目录中. 其次,我担心我的集群成本 ..
发布时间:2021-11-27 10:09:59 其他开发