window-functions相关内容
运行以下代码: val sales = Seq((0, 0, 0, 5),(1, 0, 1, 3),(2, 0, 2, 1),(3, 1, 0, 2),(4, 2, 0, 8),(5, 2, 2, 8)).toDF("id", "orderID", "prodID", "orderQty")valorderedByID = Window.orderBy('id)val totalQty = su
..
我有一个数据框,我想在其中提供每个 Window 分区中的 id.例如我有 id |上校 |1 ||2 ||3 |乙 |4 || |5 || | 所以我想要(基于列 col 分组) id |组|1 |1 |2 |1 |3 |2 |4 |3 |5 |3 | 我想使用窗口函数,但无论如何我找不到为每个窗口分配一个 Id.我需要类似的东西: w = Window().partitionBy('
..
根据我的理解,Spark 中的 first/last 函数将检索每个分区的第一行/最后一行/我无法理解为什么 LAST 函数给出的结果不正确. 这是我的代码. AgeWindow = Window.partitionBy('Dept').orderBy('Age')df1 = df1.withColumn('first(ID)', first('ID').over(AgeWindow))\
..
使用 Spark SQL 的窗口函数,我需要按多列分区来运行我的数据查询,如下: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) 我目前没有测试环境(正在对此进行设置),但作为一个快速问题,目前是否支持将其作为 Spark SQL 的窗口函数的一部分,或者这将不起作用? 解决方案
..
我在这个 DataBricks 帖子中看到,SparkSql 中支持窗口函数,特别是我正在尝试使用 lag() 窗口函数. 我有几行信用卡交易,我已经对它们进行了排序,现在我想遍历这些行,并为每一行显示交易金额,以及当前行金额与前一行金额的差异量. 在 DataBricks 帖子之后,我提出了这个查询,但它向我抛出了一个异常,我不太明白为什么.. 这是在 PySpark 中..
..
我正在使用 pyspark 1.5 从 Hive 表中获取数据并尝试使用窗口函数. 根据这个 存在一个名为 firstValue 的分析函数,它将为我提供给定窗口的第一个非空值.我知道这存在于 Hive 中,但我无法在 pyspark 的任何地方找到它. 鉴于 pyspark 不允许 UserDefinedAggregateFunctions (UDAF),有没有办法实现这一点?
..
来自 PySpark 文档 rangeBetween: rangeBetween(start, end) 定义帧边界,从开始(包括)到结束(包括). 开始和结束都相对于当前行.例如,“0"表示“当前行",“-1"表示当前行前一关,“5"表示当前行后五关. 参数: start – 边界开始,包括.如果这是 -sys.maxsize(或更低),则框架是无界的. end
..
我从 JIRA 发现 SparkR 的 1.6 版本code>已经实现了包括lag和rank的窗口函数,但是还没有实现over函数.如何在 SparkR(不是 SparkSQL 方式)中使用像 lag 函数那样没有 over 的窗口函数?有人能举个例子吗? 解决方案 Spark 2.0.0+ SparkR 为 DSL 包装器提供 over、window.partitionBy/par
..
说明 给定一个数据帧 df id |日期---------------1 |2015-09-012 |2015-09-011 |2015-09-031 |2015-09-042 |2015-09-04 我想创建一个运行计数器或索引, 按相同的 id 分组和 按该组中的日期排序, 因此 id |日期 |柜台--------------------------1 |2015-
..
我有一些数据要按特定列分组,然后根据组中的滚动时间窗口聚合一系列字段. 以下是一些示例数据: df = spark.createDataFrame([Row(date='2016-01-01', group_by='group1', get_avg=5, get_first=1),行(日期='2016-01-10', group_by='group1', get_avg=5, get_fi
..
我只是尝试在窗口上执行 countDistinct 并收到此错误: AnalysisException:不支持 u'Distinct 窗口函数:计数(不同颜色#1926) 有没有办法在 pyspark 中对窗口进行不同计数? 这是一些示例代码: from pyspark.sql.window 导入窗口from pyspark.sql 导入函数为 F#函数根据天数计算秒数天数 =
..
我正在尝试在 Spark 数据帧中使用 rowNumber.我的查询在 Spark shell 中按预期工作.但是当我在 eclipse 中写出它们并编译一个 jar 时,我遇到了一个错误 16/03/23 05:52:43 错误 ApplicationMaster:用户类抛出异常:org.apache.spark.sql.AnalysisException:无法解析窗口函数“row_numb
..
我正在使用 pySpark,并使用代表每日资产价格的两列设置了我的数据框,如下所示: ind = sc.parallelize(range(1,5))价格 = sc.parallelize([33.3,31.1,51.2,21.3])数据 = ind.zip(价格)df = sqlCtx.createDataFrame(data,["day","price"]) 我开始应用df.show():
..
我的问题是由计算 spark 数据帧中连续行之间的差异的用例触发的. 例如,我有: >>>df.show()+-----+------------+|索引|列1|+-----+------------+|0.0|0.58734024||1.0|0.67304325||2.0|0.85154736||3.0|0.5449719|+-----+------------+ 如果我选择使用“
..
这可能最容易通过示例来解释.假设我有一个用户登录网站的 DataFrame,例如: scala>df.show(5)+----------------+-----------+|用户名|登录日期|+----------------+-----------+|奇灵顿爵士IV|2012-01-04||Booooooo99900098|2012-01-04||Booooooo99900098|2012
..
我有一个包含数据的 Spark SQL DataFrame,我想要获取的是给定日期范围内当前行之前的所有行.因此,例如,我希望在给定行之前拥有 7 天前的所有行.我发现我需要使用 Window Function 像: Window \.partitionBy('id') \.orderBy('开始') 问题来了.我想要一个 rangeBetween 7 天,但我在 Spark 文档中找不到任何
..
我正在尝试在 Spark 数据帧中使用 rowNumber.我的查询在 Spark shell 中按预期工作.但是当我在 eclipse 中写出它们并编译一个 jar 时,我遇到了一个错误 16/03/23 05:52:43 错误 ApplicationMaster:用户类抛出异常:org.apache.spark.sql.AnalysisException:无法解析窗口函数“row_numb
..
我有一个由时间戳列和美元列组成的数据集.我想找到以每行的时间戳结束的每周平均美元数.我最初正在查看 pyspark.sql.functions.window 函数,但它按周对数据进行分箱. 这是一个例子: %pyspark导入日期时间from pyspark.sql 导入函数为 Fdf1 = sc.parallelize([(17,"2017-03-11T15:27:18+00:00"),
..
我的问题是由计算 spark 数据帧中连续行之间的差异的用例触发的. 例如,我有: >>>df.show()+-----+------------+|索引|列1|+-----+------------+|0.0|0.58734024||1.0|0.67304325||2.0|0.85154736||3.0|0.5449719|+-----+------------+ 如果我选择使用“
..
这可能最容易通过示例来解释.假设我有一个用户登录网站的 DataFrame,例如: scala>df.show(5)+----------------+-----------+|用户名|登录日期|+----------------+-----------+|奇灵顿爵士IV|2012-01-04||Booooooo99900098|2012-01-04||Booooooo99900098|2012
..