collect_list() 是否保持行的相对顺序? [英] Does collect_list() maintain relative ordering of rows?

查看：49 发布时间：2021/11/14 22:21:03 scala apache-spark apache-spark-sql

本文介绍了collect_list() 是否保持行的相对顺序?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

假设我有以下 DataFrame df:

Imagine that I have the following DataFrame df:

+---+-----------+------------+
| id|featureName|featureValue|
+---+-----------+------------+
|id1|          a|           3|
|id1|          b|           4|
|id2|          a|           2|
|id2|          c|           5|
|id3|          d|           9|
+---+-----------+------------+

想象一下我在跑步:

df.groupBy("id")
  .agg(collect_list($"featureIndex").as("idx"),
       collect_list($"featureValue").as("val"))

我是否保证idx"和val"将被聚合并保持它们的相对顺序?即

Am I GUARANTEED that "idx" and "val" will be aggregated and keep their relative order? i.e.

GOOD                   GOOD                   BAD
+---+------+------+    +---+------+------+    +---+------+------+
| id|   idx|   val|    | id|   idx|   val|    | id|   idx|   val|
+---+------+------+    +---+------+------+    +---+------+------+
|id3|   [d]|   [9]|    |id3|   [d]|   [9]|    |id3|   [d]|   [9]|
|id1|[a, b]|[3, 4]|    |id1|[b, a]|[4, 3]|    |id1|[a, b]|[4, 3]|
|id2|[a, c]|[2, 5]|    |id2|[c, a]|[5, 2]|    |id2|[a, c]|[5, 2]|
+---+------+------+    +---+------+------+    +---+------+------+

注意:例如这很糟糕，因为对于 id1 [a, b] 应该与 [3, 4](而不是 [4, 3])相关联.id2 也一样

NOTE: e.g. It's BAD because for id1 [a, b] should have been associated with [3, 4] (and not [4, 3]). Same for id2

collect_list() 是否保持行的相对顺序? [英] Does collect_list() maintain relative ordering of rows?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

collect_list() 是否保持行的相对顺序? [英] Does collect_list() maintain relative ordering of rows?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭