apache-spark相关内容

SparkSQL 支持子查询吗?

我在 Spark shell 中运行此查询,但它给了我错误, sqlContext.sql(“从samplecsv中选择sal,其中sal 错误: java.lang.RuntimeException: [1.47] failure: ``)'' 预期但发现标识符 MAX 从samplecsv中选择sal,其中sal (从 samplecsv 中选择 MAX(sal))^在 s ..
发布时间:2022-01-23 15:36:25 其他开发

PySpark:如何转置数据框中的多列

我是 Spark 的新手,在使用 PySpark 或 Spark Sql 将以下输入数据帧转换为所需的输出 df(行到列)时需要帮助. 输入数据框- A B C D1 2 3 410 11 12 13……........... 所需的输出(转置)数据 A 1乙二C 3411乙 12C 1314………… 如果我可以根据我们的要求旋转输入数据(列)会更好. 解决方案 你可以做一个 ..
发布时间:2022-01-22 21:28:10 其他开发

将新数据附加到分区 parquet 文件

我正在编写一个 ETL 过程,我需要读取每小时的日志文件、对数据进行分区并保存它.我正在使用 Spark(在 Databricks 中).日志文件是 CSV,所以我阅读它们并应用模式,然后执行我的转换. 我的问题是,如何将每小时的数据保存为镶木地板格式但附加到现有数据集?保存时,我需要按数据框中存在的 4 列进行分区. 这是我的存档: 数据.filter(validPartnerId ..
发布时间:2022-01-22 11:37:03 其他开发

火花数据集分组和总和

我使用 Spark 1.6.1 和 Java 作为编程语言.以下代码在 dataframes 上运行良好: simpleProf.groupBy(col("col1"), col("col2") ).agg(总和(“CURRENT_MONTH"),总和(“上一月")); 但是,它不使用 数据集,知道如何在 Java/Spark 中对数据集执行相同的操作吗? 干杯 解决方案 它 ..
发布时间:2022-01-21 13:41:55 Java开发

如何将 Scala Spark Dataset.show 重定向到 log4j 记录器

Spark API 文档展示了如何从发送到标准输出的数据集或数据帧中获取漂亮的打印片段. 可以将此输出定向到 log4j 记录器吗?或者:有人可以共享将创建类似于 df.show() 格式的输出的代码吗? 有没有办法让标准输出在将 .show() 输出推送到记录器之前和之后都进入控制台? http://spark.apache.org/docs/latest/sql-progra ..
发布时间:2022-01-21 13:32:54 其他开发

如何将自定义 Java 类转换为 Spark 数据集

我不知道如何将测试对象列表转换为 Spark 中的数据集这是我的课: 公共类测试{公共字符串一个;公共字符串 b;公共测试(字符串 a,字符串 b){这.a = a;这个.b = b;}公共列表 getList(){列表 l = new ArrayList();l.add(this.a);l.add(this.b);返回 l;}} 解决方案 您在注释中创建 DataFrame 的代码是正确的 ..
发布时间:2022-01-21 13:18:15 Java开发

Spark 默认空列数据集

我无法让 Spark 将 json(或 csv )作为具有 Option[_] 字段的案例类的 Dataset 读取并非所有字段都在源代码中定义. 这有点神秘,但假设我有一个名为 CustomData 的案例类 给定以下 json 文件 (customA.json): {"id":123, "colA": "x", "colB": "z"}{“id":456,“colA":“y"}{ ..
发布时间:2022-01-21 13:06:52 其他开发

如何在 Spark 中显示 KeyValueGroupedDataset?

我正在尝试学习 Spark 中的数据集.我想不通的一件事是如何显示 KeyValueGroupedDataset,因为 show 对它不起作用.另外,KeyValuGroupedDataSet 的 map 等价物是什么?如果有人举一些例子,我将不胜感激. 解决方案 好的,我从给出的示例中得到了这个想法 这里 和 这里.我在下面给出一个我写的简单例子. val x = Seq(("a", ..
发布时间:2022-01-21 13:06:00 其他开发

如何从 RDD 创建 Spark 数据集

我有一个 RDD[LabeledPoint] 打算在机器学习管道中使用.我们如何将 RDD 转换为 DataSet?请注意较新的 spark.ml api 需要 Dataset 格式的输入. 解决方案 这是一个遍历额外步骤的答案 - DataFrame.我们使用 SQLContext 创建一个 DataFrame,然后使用所需的对象类型创建一个 DataSet - 在本例中为 Labele ..
发布时间:2022-01-21 13:05:46 其他开发

Spark Scala 2.10 元组限制

我有 66 列要处理的 DataFrame(几乎每个列的值都需要以某种方式更改)所以我正在运行以下语句 val 结果 = data.map(row=> (修改(row.getString(row.fieldIndex(“XX"))),(...))) 直到第 66 列.由于此版本中的 scala 限制为 22 对的最大元组,我不能那样执行此操作.问题是,有什么解决方法吗?在所有行操作之后,我将 ..
发布时间:2022-01-20 08:15:26 其他开发

如何使用 spark-submit 在集群模式下将环境变量传递给 spark 驱动程序

spark-submit 允许使用 --conf spark.executorEnv.FOO=bar 配置执行器环境变量,Spark REST API 允许传递一些环境变量environmentVariables 字段.不幸的是,在集群模式下使用 spark-submit 提交驱动程序时,我没有发现与配置驱动程序环境变量类似的东西: spark-submit --deploy-mode clus ..
发布时间:2022-01-16 00:11:25 其他开发

在 Spark 执行器节点上安装 Python 依赖项的最简单方法是什么?

我了解您可以使用 Python Spark 程序将单个文件作为依赖项发送.但是成熟的库(例如 numpy)呢? Spark 是否有办法使用提供的包管理器(例如 pip)来安装库依赖项?还是必须在执行 Spark 程序之前手动完成? 如果答案是手动,那么在大量分布式节点上同步库(安装路径、版本等)的“最佳实践"方法是什么? 解决方案 实际上已经尝试过了,我认为我作为评论发布的链接 ..

如何使用 Spark java 从 mariadb 读取数据

我需要使用 Spark 和 Java 从 MariaDB 读取一个表. 我写了一个从数据库读取表数据的Java代码.连接建​​立成功,但是读取数据时出错.我正在尝试将表数据作为数据框读取.但是列名在结果中显示为列值.找到下面给出的代码: import java.io.IOException;导入 java.io.InputStream;导入 java.util.Properties;导入 ..
发布时间:2022-01-15 20:43:00 Java开发

如何将 Spark 中的 DataFrame 转换为 HadoopRDD

我喜欢在 spark 中将数据帧写入 dynamodb.所以我使用 rdd.saveAsHadoopDataset(JobConf).但是 rdd 类型不匹配.它需要 hadoopRDD 类型的 rdd.所以我喜欢将数据帧转换为 rdd.我使用过 df.rdd 这给了我 rdd 但不是 hadoopRDD.我正在使用 spark-scala API.如果有任何更好的方法可以从 spark 将 Da ..
发布时间:2022-01-15 17:47:12 其他开发