window-functions 第5页 - IT屋-程序员软件开发技术分享社区

窗口函数的默认窗口框架是什么

运行以下代码: val sales = Seq((0, 0, 0, 5),(1, 0, 1, 3),(2, 0, 2, 1),(3, 1, 0, 2),(4, 2, 0, 8),(5, 2, 2, 8)).toDF("id", "orderID", "prodID", "orderQty")valorderedByID = Window.orderBy('id)val totalQty = su ..

发布时间：2021-11-14 22:01:42 sql apache-spark apache-spark-sql window-functions 其他开发

在 Spark Dataframe 中的窗口上创建组 ID

我有一个数据框，我想在其中提供每个 Window 分区中的 id.例如我有 id |上校 |1 ||2 ||3 |乙 |4 || |5 || | 所以我想要(基于列 col 分组) id |组|1 |1 |2 |1 |3 |2 |4 |3 |5 |3 | 我想使用窗口函数，但无论如何我找不到为每个窗口分配一个 Id.我需要类似的东西: w = Window().partitionBy(' ..

发布时间：2021-11-14 21:55:39 apache-spark pyspark apache-spark-sql window-functions 其他开发

PySpark/Spark 窗口函数第一/最后一期

根据我的理解，Spark 中的 first/last 函数将检索每个分区的第一行/最后一行/我无法理解为什么 LAST 函数给出的结果不正确. 这是我的代码. AgeWindow = Window.partitionBy('Dept').orderBy('Age')df1 = df1.withColumn('first(ID)', first('ID').over(AgeWindow))\ ..

发布时间：2021-11-14 21:54:49 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

在 Spark SQL 中按多列进行分区

使用 Spark SQL 的窗口函数，我需要按多列分区来运行我的数据查询，如下: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) 我目前没有测试环境(正在对此进行设置)，但作为一个快速问题，目前是否支持将其作为 Spark SQL 的窗口函数的一部分，或者这将不起作用? 解决方案 ..

发布时间：2021-11-14 21:52:00 apache-spark apache-spark-sql window-functions 其他开发

SparkSQL - 滞后函数?

我在这个 DataBricks 帖子中看到，SparkSql 中支持窗口函数，特别是我正在尝试使用 lag() 窗口函数. 我有几行信用卡交易，我已经对它们进行了排序，现在我想遍历这些行，并为每一行显示交易金额，以及当前行金额与前一行金额的差异量. 在 DataBricks 帖子之后，我提出了这个查询，但它向我抛出了一个异常，我不太明白为什么.. 这是在 PySpark 中.. ..

发布时间：2021-11-14 21:46:58 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

pyspark 中的 first_value 窗口函数

我正在使用 pyspark 1.5 从 Hive 表中获取数据并尝试使用窗口函数. 根据这个存在一个名为 firstValue 的分析函数，它将为我提供给定窗口的第一个非空值.我知道这存在于 Hive 中，但我无法在 pyspark 的任何地方找到它. 鉴于 pyspark 不允许 UserDefinedAggregateFunctions (UDAF)，有没有办法实现这一点? ..

发布时间：2021-11-14 21:46:55 apache-spark pyspark apache-spark-sql window-functions 其他开发

rowBetween 和 rangeBetween 之间有什么区别?

来自 PySpark 文档 rangeBetween: rangeBetween(start, end) 定义帧边界，从开始(包括)到结束(包括). 开始和结束都相对于当前行.例如，“0"表示“当前行"，“-1"表示当前行前一关，“5"表示当前行后五关. 参数: start – 边界开始，包括.如果这是 -sys.maxsize(或更低)，则框架是无界的. end ..

发布时间：2021-11-14 21:39:00 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

SparkR 窗口函数

我从 JIRA 发现 SparkR 的 1.6 版本code>已经实现了包括lag和rank的窗口函数，但是还没有实现over函数.如何在 SparkR(不是 SparkSQL 方式)中使用像 lag 函数那样没有 over 的窗口函数?有人能举个例子吗? 解决方案 Spark 2.0.0+ SparkR 为 DSL 包装器提供 over、window.partitionBy/par ..

发布时间：2021-11-14 21:31:44 r apache-spark apache-spark-sql window-functions sparkr 其他开发

Spark 和 SparkSQL:如何模仿窗口函数?

说明给定一个数据帧 df id |日期---------------1 |2015-09-012 |2015-09-011 |2015-09-031 |2015-09-042 |2015-09-04 我想创建一个运行计数器或索引，按相同的 id 分组和按该组中的日期排序，因此 id |日期 |柜台--------------------------1 |2015- ..

发布时间：2021-11-14 21:30:46 scala apache-spark apache-spark-sql window-functions 其他开发

如何在 Spark 中使用组聚合滚动时间窗口

我有一些数据要按特定列分组，然后根据组中的滚动时间窗口聚合一系列字段. 以下是一些示例数据: df = spark.createDataFrame([Row(date='2016-01-01', group_by='group1', get_avg=5, get_first=1),行(日期='2016-01-10', group_by='group1', get_avg=5, get_fi ..

发布时间：2021-11-14 21:26:48 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

pyspark:在窗口上计算不同

我只是尝试在窗口上执行 countDistinct 并收到此错误: AnalysisException:不支持 u'Distinct 窗口函数:计数(不同颜色#1926) 有没有办法在 pyspark 中对窗口进行不同计数? 这是一些示例代码: from pyspark.sql.window 导入窗口from pyspark.sql 导入函数为 F#函数根据天数计算秒数天数 = ..

发布时间：2021-11-14 21:26:38 apache-spark pyspark apache-spark-sql window-functions distinct-values 其他开发

在 Spark 中使用窗口函数

我正在尝试在 Spark 数据帧中使用 rowNumber.我的查询在 Spark shell 中按预期工作.但是当我在 eclipse 中写出它们并编译一个 jar 时，我遇到了一个错误 16/03/23 05:52:43 错误 ApplicationMaster:用户类抛出异常:org.apache.spark.sql.AnalysisException:无法解析窗口函数“row_numb ..

发布时间：2021-11-14 21:25:22 apache-spark apache-spark-sql window-functions 其他开发

应用窗口函数计算 pySpark 中的差异

我正在使用 pySpark，并使用代表每日资产价格的两列设置了我的数据框，如下所示: ind = sc.parallelize(range(1,5))价格 = sc.parallelize([33.3,31.1,51.2,21.3])数据 = ind.zip(价格)df = sqlCtx.createDataFrame(data,["day","price"]) 我开始应用df.show(): ..

发布时间：2021-11-14 21:20:16 pyspark spark-dataframe window-functions pyspark-sql 其他开发

避免 Spark 窗口函数中单一分区模式的性能影响

我的问题是由计算 spark 数据帧中连续行之间的差异的用例触发的. 例如，我有: >>>df.show()+-----+------------+|索引|列1|+-----+------------+|0.0|0.58734024||1.0|0.67304325||2.0|0.85154736||3.0|0.5449719|+-----+------------+ 如果我选择使用“ ..

发布时间：2021-11-14 21:17:30 apache-spark pyspark apache-spark-sql partitioning window-functions 其他开发

条件复杂的Spark SQL窗口函数

这可能最容易通过示例来解释.假设我有一个用户登录网站的 DataFrame，例如: scala>df.show(5)+----------------+-----------+|用户名|登录日期|+----------------+-----------+|奇灵顿爵士IV|2012-01-04||Booooooo99900098|2012-01-04||Booooooo99900098|2012 ..

发布时间：2021-11-14 21:15:16 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

Spark 窗口函数 - rangeBetween 日期

我有一个包含数据的 Spark SQL DataFrame，我想要获取的是给定日期范围内当前行之前的所有行.因此，例如，我希望在给定行之前拥有 7 天前的所有行.我发现我需要使用 Window Function 像: Window \.partitionBy('id') \.orderBy('开始') 问题来了.我想要一个 rangeBetween 7 天，但我在 Spark 文档中找不到任何 ..

发布时间：2021-11-14 21:15:12 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

在 Spark 中使用窗口函数

我正在尝试在 Spark 数据帧中使用 rowNumber.我的查询在 Spark shell 中按预期工作.但是当我在 eclipse 中写出它们并编译一个 jar 时，我遇到了一个错误 16/03/23 05:52:43 错误 ApplicationMaster:用户类抛出异常:org.apache.spark.sql.AnalysisException:无法解析窗口函数“row_numb ..

发布时间：2021-11-12 05:46:53 apache-spark apache-spark-sql window-functions 其他开发

pyspark:使用时间序列数据的滚动平均值

我有一个由时间戳列和美元列组成的数据集.我想找到以每行的时间戳结束的每周平均美元数.我最初正在查看 pyspark.sql.functions.window 函数，但它按周对数据进行分箱. 这是一个例子: %pyspark导入日期时间from pyspark.sql 导入函数为 Fdf1 = sc.parallelize([(17,"2017-03-11T15:27:18+00:00"), ..

发布时间：2021-11-12 05:42:44 apache-spark pyspark window-functions moving-average 其他开发

避免 Spark 窗口函数中单一分区模式的性能影响

我的问题是由计算 spark 数据帧中连续行之间的差异的用例触发的. 例如，我有: >>>df.show()+-----+------------+|索引|列1|+-----+------------+|0.0|0.58734024||1.0|0.67304325||2.0|0.85154736||3.0|0.5449719|+-----+------------+ 如果我选择使用“ ..

发布时间：2021-11-12 05:29:43 apache-spark pyspark apache-spark-sql partitioning window-functions 其他开发

条件复杂的Spark SQL窗口函数

这可能最容易通过示例来解释.假设我有一个用户登录网站的 DataFrame，例如: scala>df.show(5)+----------------+-----------+|用户名|登录日期|+----------------+-----------+|奇灵顿爵士IV|2012-01-04||Booooooo99900098|2012-01-04||Booooooo99900098|2012 ..

发布时间：2021-11-12 05:25:54 sql apache-spark pyspark apache-spark-sql window-functions 其他开发

window-functions相关内容