apache-spark-sql 第2页 - IT屋-程序员软件开发技术分享社区

有什么办法可以扁平化电光流媒体中的嵌套JSON吗？

我已经编写了一个数据集火花作业(批处理)代码来扁平化数据，运行正常，但当我尝试在火花流作业中使用相同的代码片段时，它抛出以下错误必须使用WriteStream.start()；执行具有流来源的查询那么，有什么方法可以在流作业中展平嵌套的JSON吗？样本输入嵌套JSON- { "name":" Akash", "age":26, "watches":{ ..

发布时间：2022-03-29 19:55:13 java apache-spark apache-spark-sql spark-streaming Java开发

基于Spark结构化流中的多个条件从另一列更新列值

我希望基于多个条件使用另外两列更新一列中的值。对于Eg-流如下： +---+---+----+---+ | A | B | C | D | +---+---+----+---+ | a | T | 10 | 0 | | a | T | 100| 0 | | a | L | 0 | 0 | | a | L | 1 | 0 | ..

发布时间：2022-03-29 19:39:50 scala apache-spark-sql spark-streaming multiple-conditions 其他开发

PySpark-从值列表中添加列

我必须根据值列表将列添加到PySpark DataFrame。 a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) 我有一个名为Rating的列表，它是对每只宠物的评级。 rating = [5,4,1] 我需要向数据帧追加一个名为Rat ..

发布时间：2022-02-21 14:22:09 python list apache-spark pyspark apache-spark-sql Python

如何在电光sql中表示名称中包含空格的列？

我们已尝试用方括号[column name]、单引号和双引号和反号将列名括起来，但都不起作用。电光是否支持名称包含空格的列？推荐答案反引号似乎工作正常： scala> val df = sc.parallelize(Seq(("a", 1))).toDF("foo bar", "x") df: org.apache.spark.sql.DataFrame = [foo ..

发布时间：2022-02-21 14:20:21 apache-spark pyspark apache-spark-sql 其他开发

SparkSQL 支持子查询吗?

我在 Spark shell 中运行此查询，但它给了我错误， sqlContext.sql(“从samplecsv中选择sal，其中sal 错误: java.lang.RuntimeException: [1.47] failure: ``)'' 预期但发现标识符 MAX 从samplecsv中选择sal，其中sal (从 samplecsv 中选择 MAX(sal))^在 s ..

发布时间：2022-01-23 15:36:25 sql apache-spark subquery apache-spark-sql 其他开发

如何将行数据转置/旋转到 Spark Scala 中的列?

我是 Spark-SQL 的新手.我在 Spark Dataframe 中有这样的信息公司类型状态A X 完成完成A Z 完成C X 完成完成B Y 完成我想显示如下公司 X-type Y-type Z-typeA done done doneB 待定已完成待定C 已完成待定我无法实现这是 Spark-SQL 请帮忙解决方案你可以groupby Company ..

发布时间：2022-01-22 21:32:50 scala apache-spark apache-spark-sql pivot 其他开发

PySpark:如何转置数据框中的多列

我是 Spark 的新手，在使用 PySpark 或 Spark Sql 将以下输入数据帧转换为所需的输出 df(行到列)时需要帮助. 输入数据框- A B C D1 2 3 410 11 12 13……........... 所需的输出(转置)数据 A 1乙二C 3411乙 12C 1314………… 如果我可以根据我们的要求旋转输入数据(列)会更好. 解决方案你可以做一个 ..

发布时间：2022-01-22 21:28:10 apache-spark pyspark apache-spark-sql pivot transpose 其他开发

如何使用 Spark java 从 mariadb 读取数据

我需要使用 Spark 和 Java 从 MariaDB 读取一个表. 我写了一个从数据库读取表数据的Java代码.连接建立成功，但是读取数据时出错.我正在尝试将表数据作为数据框读取.但是列名在结果中显示为列值.找到下面给出的代码: import java.io.IOException;导入 java.io.InputStream；导入 java.util.Properties；导入 ..

发布时间：2022-01-15 20:43:00 java apache-spark jdbc apache-spark-sql mariadb Java开发

PySpark 如何将 CSV 读入 Dataframe，并对其进行操作

我对 pyspark 很陌生，我正在尝试使用它来处理一个保存为 csv 文件的大型数据集.我想将 CSV 文件读入 spark 数据框，删除一些列，然后添加新列.我该怎么做? 我无法将此数据放入数据框中.这是我目前所拥有的精简版: def make_dataframe(data_portion, schema, sql):字段 = data_portion.split(",")返回 sql ..

发布时间：2022-01-14 08:07:00 apache-spark mapreduce pyspark apache-spark-sql spark-dataframe 其他开发

从数据框中获取价值

在 Scala 中，我可以使用 get(#) 或 getAs[Type](#) 从数据帧中获取值.在 pyspark 中应该怎么做? 我有一个两列 DataFrame:item(string) 和 salesNum(integers).我做了一个 groupby 和 mean 来获得这些数字的平均值，如下所示: saleDF.groupBy("salesNum").mean()).co ..

发布时间：2022-01-13 00:06:17 python pyspark type-conversion apache-spark-sql Python

如何通过 pandas 或火花数据框删除所有行中具有相同值的列?

假设我有类似以下的数据: 索引 id 名称 value value2 value3 data1 val50 345 姓名1 1 99 23 3 661 12 姓名2 1 99 23 2 665 2 姓名6 1 99 23 7 66 我们如何在一个命令中删除所有行具有相同值的所有列，例如 (value, value2, value3)还是使用 python 的几个命令? 假设我们有许多列 ..

发布时间：2022-01-10 13:29:41 python pandas apache-spark-sql duplicates multiple-columns Python

pyspark中的probnorm函数等效

PROBNORM:解释 SAS 中的 PROBNORM 函数返回标准正态分布的观测值小于或等于 x 的概率. pyspark中有没有等价的功能? 解决方案恐怕PySpark中没有这样的实现方法. 但是，您可以利用 Pandas UDF 使用基本的 Python 包定义您自己的自定义函数！这里我们将使用 scipy.stats.norm 模块从标准正态分布中获取累积概率. ..

发布时间：2022-01-08 17:43:27 python apache-spark pyspark apache-spark-sql sas Python

AttributeError: 'NoneType' 对象没有属性 'setCallSite'

在 PySpark 中，我想计算两个数据帧向量之间的相关性，使用以下代码(我在导入 pyspark 或 createDataFrame 时没有任何问题): from pyspark.ml.linalg import Vectors从 pyspark.ml.stat 导入相关性导入pysparkspark = pyspark.sql.SparkSession.builder.master("loc ..

发布时间：2022-01-07 23:56:13 python pyspark statistics apache-spark-sql correlation Python

重命名 Scala Spark Dataframe 中的嵌套元素

我有一个带有嵌套结构的 Spark Scala 数据框: |-- _History: struct (nullable = true)||-- 文章:数组 (nullable = true)|||-- 元素: struct (containsNull = true)||||-- Id: string (nullable = true)||||-- 时间戳:long (nullable = tr ..

发布时间：2022-01-07 13:52:35 scala apache-spark nested apache-spark-sql 其他开发

将分析数据从 Spark 插入到 Postgres

我有 Cassandra 数据库，我通过 Apache Spark 使用 SparkSQL 从中分析了数据.现在我想将那些分析过的数据插入到 PostgreSQL 中.除了使用 PostgreSQL 驱动程序(我使用 postREST 和 Driver 我想知道是否有像 saveToCassandra() 这样的方法)之外，还有什么方法可以直接实现这一点吗? 解决方案目前还没有将 RDD ..

发布时间：2021-12-31 17:36:34 java postgresql cassandra apache-spark apache-spark-sql Java开发

在 Apache Spark 中将 Dataframe 的列值提取为 List

我想将数据框的字符串列转换为列表.我可以从 Dataframe API 中找到 RDD，所以我尝试先将其转换回 RDD，然后将 toArray 函数应用于 RDD.在这种情况下，长度和 SQL 工作得很好.然而，我从 RDD 得到的结果在每个元素周围都有方括号，就像这样[A00001].我想知道是否有适当的方法将列转换为列表或删除方括号的方法. 任何建议将不胜感激.谢谢！解决方案 ..

发布时间：2021-12-31 08:46:08 scala apache-spark apache-spark-sql 其他开发

如何在sparksql中获得两个日期之间的月、年差异

我收到错误: org.apache.spark.sql.analysisexception:无法解析“年份" 我的输入数据: 1,2012-07-21,2014-04-09 我的代码: val sqlContext = new org.apache.spark.sql.SQLContext(sc)导入 sqlContext.implicits._导入 org.apache.spark.s ..

发布时间：2021-12-31 08:45:20 scala apache-spark apache-spark-sql 其他开发

将纳秒字符串转换为 spark 中的时间戳

有没有办法将带有纳秒的时间戳值转换为 spark 中的时间戳.我从 csv 文件中获取输入，并且 timstamp 值的格式为12-12-2015 14:09:36.992415+01:00.这是我试过的代码. val date_raw_data = List((1, "12-12-2015 14:09:36.992415+01:00"))val dateraw_df = sc.parallel ..

发布时间：2021-12-31 08:44:56 datetime apache-spark apache-spark-sql 其他开发

如何在 Apache Spark 中将时区设置为 UTC?

在 Spark 的 WebUI(端口 8080)和环境选项卡上，有以下设置: user.timezone 祖鲁语你知道我如何/在哪里可以将其覆盖为 UTC? 环境细节: Spark 2.1.1 jre-1.8.0-openjdk.x86_64 没有 jdk EC2 亚马逊 Linux 编辑(有人回答了下面然后删除):https://www.timeanddate.co ..

发布时间：2021-12-31 08:44:25 java apache-spark pyspark apache-spark-sql jvm Java开发

如何检查 Spark 数据帧结构数组是否包含特定值

我有一个具有以下架构的数据框我的要求是在任何地址数组元素中过滤与给定字段(如城市)匹配的行.我可以访问单个字段，如 loyaltyMember.address[0].city，但我必须检查所有地址数组元素以查看是否存在匹配项.我如何在 spark sql 中实现这一点，我无法使用 array_contains 函数，因为数组是复杂类型 root|--loyaltyMember: stru ..

发布时间：2021-12-31 08:44:16 apache-spark apache-spark-sql 其他开发

apache-spark-sql相关内容