apache-spark-sql相关内容

有什么办法可以扁平化电光流媒体中的嵌套JSON吗?

我已经编写了一个数据集火花作业(批处理)代码来扁平化数据,运行正常,但当我尝试在火花流作业中使用相同的代码片段时,它抛出以下错误 必须使用WriteStream.start(); 执行具有流来源的查询 那么,有什么方法可以在流作业中展平嵌套的JSON吗? 样本输入嵌套JSON- { "name":" Akash", "age":26, "watches":{ ..
发布时间:2022-03-29 19:55:13 Java开发

PySpark-从值列表中添加列

我必须根据值列表将列添加到PySpark DataFrame。 a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) 我有一个名为Rating的列表,它是对每只宠物的评级。 rating = [5,4,1] 我需要向数据帧追加一个名为Rat ..
发布时间:2022-02-21 14:22:09 Python

SparkSQL 支持子查询吗?

我在 Spark shell 中运行此查询,但它给了我错误, sqlContext.sql(“从samplecsv中选择sal,其中sal 错误: java.lang.RuntimeException: [1.47] failure: ``)'' 预期但发现标识符 MAX 从samplecsv中选择sal,其中sal (从 samplecsv 中选择 MAX(sal))^在 s ..
发布时间:2022-01-23 15:36:25 其他开发

PySpark:如何转置数据框中的多列

我是 Spark 的新手,在使用 PySpark 或 Spark Sql 将以下输入数据帧转换为所需的输出 df(行到列)时需要帮助. 输入数据框- A B C D1 2 3 410 11 12 13……........... 所需的输出(转置)数据 A 1乙二C 3411乙 12C 1314………… 如果我可以根据我们的要求旋转输入数据(列)会更好. 解决方案 你可以做一个 ..
发布时间:2022-01-22 21:28:10 其他开发

如何使用 Spark java 从 mariadb 读取数据

我需要使用 Spark 和 Java 从 MariaDB 读取一个表. 我写了一个从数据库读取表数据的Java代码.连接建​​立成功,但是读取数据时出错.我正在尝试将表数据作为数据框读取.但是列名在结果中显示为列值.找到下面给出的代码: import java.io.IOException;导入 java.io.InputStream;导入 java.util.Properties;导入 ..
发布时间:2022-01-15 20:43:00 Java开发

PySpark 如何将 CSV 读入 Dataframe,并对其进行操作

我对 pyspark 很陌生,我正在尝试使用它来处理一个保存为 csv 文件的大型数据集.我想将 CSV 文件读入 spark 数据框,删除一些列,然后添加新列.我该怎么做? 我无法将此数据放入数据框中.这是我目前所拥有的精简版: def make_dataframe(data_portion, schema, sql):字段 = data_portion.split(",")返回 sql ..

从数据框中获取价值

在 Scala 中,我可以使用 get(#) 或 getAs[Type](#) 从数据帧中获取值.在 pyspark 中应该怎么做? 我有一个两列 DataFrame:item(string) 和 salesNum(integers).我做了一个 groupby 和 mean 来获得这些数字的平均值,如下所示: saleDF.groupBy("salesNum").mean()).co ..
发布时间:2022-01-13 00:06:17 Python

如何通过 pandas 或火花数据框删除所有行中具有相同值的列?

假设我有类似以下的数据: 索引 id 名称 value value2 value3 data1 val50 345 姓名1 1 99 23 3 661 12 姓名2 1 99 23 2 665 2 姓名6 1 99 23 7 66 我们如何在一个命令中删除所有行具有相同值的所有列,例如 (value, value2, value3)还是使用 python 的几个命令? 假设我们有许多列 ..
发布时间:2022-01-10 13:29:41 Python

pyspark中的probnorm函数等效

PROBNORM:解释 SAS 中的 PROBNORM 函数返回标准正态分布的观测值小于或等于 x 的概率. pyspark中有没有等价的功能? 解决方案 恐怕PySpark中没有这样的实现方法. 但是,您可以利用 Pandas UDF 使用基本的 Python 包定义您自己的自定义函数!这里我们将使用 scipy.stats.norm 模块从标准正态分布中获取累积概率. ..
发布时间:2022-01-08 17:43:27 Python

将分析数据从 Spark 插入到 Postgres

我有 Cassandra 数据库,我通过 Apache Spark 使用 SparkSQL 从中分析了数据.现在我想将那些分析过的数据插入到 PostgreSQL 中.除了使用 PostgreSQL 驱动程序(我使用 postREST 和 Driver 我想知道是否有像 saveToCassandra() 这样的方法)之外,还有什么方法可以直接实现这一点吗? 解决方案 目前还没有将 RDD ..
发布时间:2021-12-31 17:36:34 Java开发

在 Apache Spark 中将 Dataframe 的列值提取为 List

我想将数据框的字符串列转换为列表.我可以从 Dataframe API 中找到 RDD,所以我尝试先将其转换回 RDD,然后将 toArray 函数应用于 RDD.在这种情况下,长度和 SQL 工作得很好.然而,我从 RDD 得到的结果在每个元素周围都有方括号,就像这样[A00001].我想知道是否有适当的方法将列转换为列表或删除方括号的方法. 任何建议将不胜感激.谢谢! 解决方案 ..
发布时间:2021-12-31 08:46:08 其他开发

如何检查 Spark 数据帧结构数组是否包含特定值

我有一个具有以下架构的数据框 我的要求是在任何地址数组元素中过滤与给定字段(如城市)匹配的行.我可以访问单个字段,如 loyaltyMember.address[0].city,但我必须检查所有地址数组元素以查看是否存在匹配项.我如何在 spark sql 中实现这一点,我无法使用 array_contains 函数,因为数组是复杂类型 root|--loyaltyMember: stru ..
发布时间:2021-12-31 08:44:16 其他开发