window-functions相关内容

在 Spark SQL 中按多列进行分区

使用 Spark SQL 的窗口函数,我需要按多列分区来运行我的数据查询,如下: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) 我目前没有测试环境(正在对此进行设置),但作为一个快速问题,目前是否支持将其作为 Spark SQL 的窗口函数的一部分,或者这将不起作用? 解决方案 ..
发布时间:2021-11-14 21:52:00 其他开发

SparkSQL - 滞后函数?

我在这个 DataBricks 帖子中看到,SparkSql 中支持窗口函数,特别是我正在尝试使用 lag() 窗口函数. 我有几行信用卡交易,我已经对它们进行了排序,现在我想遍历这些行,并为每一行显示交易金额,以及当前行金额与前一行金额的差异量. 在 DataBricks 帖子之后,我提出了这个查询,但它向我抛出了一个异常,我不太明白为什么.. 这是在 PySpark 中.. ..

pyspark 中的 first_value 窗口函数

我正在使用 pyspark 1.5 从 Hive 表中获取数据并尝试使用窗口函数. 根据这个 存在一个名为 firstValue 的分析函数,它将为我提供给定窗口的第一个非空值.我知道这存在于 Hive 中,但我无法在 pyspark 的任何地方找到它. 鉴于 pyspark 不允许 UserDefinedAggregateFunctions (UDAF),有没有办法实现这一点? ..

rowBetween 和 rangeBetween 之间有什么区别?

来自 PySpark 文档 rangeBetween: rangeBetween(start, end) 定义帧边界,从开始(包括)到结束(包括). 开始和结束都相对于当前行.例如,“0"表示“当前行",“-1"表示当前行前一关,“5"表示当前行后五关. 参数: start – 边界开始,包括.如果这是 -sys.maxsize(或更低),则框架是无界的. end ..

SparkR 窗口函数

我从 JIRA 发现 SparkR 的 1.6 版本code>已经实现了包括lag和rank的窗口函数,但是还没有实现over函数.如何在 SparkR(不是 SparkSQL 方式)中使用像 lag 函数那样没有 over 的窗口函数?有人能举个例子吗? 解决方案 Spark 2.0.0+ SparkR 为 DSL 包装器提供 over、window.partitionBy/par ..
发布时间:2021-11-14 21:31:44 其他开发

在 Spark 中使用窗口函数

我正在尝试在 Spark 数据帧中使用 rowNumber.我的查询在 Spark shell 中按预期工作.但是当我在 eclipse 中写出它们并编译一个 jar 时,我遇到了一个错误 16/03/23 05:52:43 错误 ApplicationMaster:用户类抛出异常:org.apache.spark.sql.AnalysisException:无法解析窗口函数“row_numb ..
发布时间:2021-11-14 21:25:22 其他开发

Spark 窗口函数 - rangeBetween 日期

我有一个包含数据的 Spark SQL DataFrame,我想要获取的是给定日期范围内当前行之前的所有行.因此,例如,我希望在给定行之前拥有 7 天前的所有行.我发现我需要使用 Window Function 像: Window \.partitionBy('id') \.orderBy('开始') 问题来了.我想要一个 rangeBetween 7 天,但我在 Spark 文档中找不到任何 ..

在 Spark 中使用窗口函数

我正在尝试在 Spark 数据帧中使用 rowNumber.我的查询在 Spark shell 中按预期工作.但是当我在 eclipse 中写出它们并编译一个 jar 时,我遇到了一个错误 16/03/23 05:52:43 错误 ApplicationMaster:用户类抛出异常:org.apache.spark.sql.AnalysisException:无法解析窗口函数“row_numb ..
发布时间:2021-11-12 05:46:53 其他开发

pyspark:使用时间序列数据的滚动平均值

我有一个由时间戳列和美元列组成的数据集.我想找到以每行的时间戳结束的每周平均美元数.我最初正在查看 pyspark.sql.functions.window 函数,但它按周对数据进行分箱. 这是一个例子: %pyspark导入日期时间from pyspark.sql 导入函数为 Fdf1 = sc.parallelize([(17,"2017-03-11T15:27:18+00:00"), ..
发布时间:2021-11-12 05:42:44 其他开发