SPARKSQL:orderBy之后的groupBy是否维护该订单



我有火花2.3.0。在本例中,orderBy之后的groupBy是否维护该顺序?

id date       name
1  2020-10-01 name1
1  2020-09-01 name2
1  2020-11-01 name3

这是代码:

df
.orderBy(col("date"))
.groupBy(col("id"))
.agg(
first(col("name"))
).show()

我期待的结果:

id name
1  name2

我在旧帖子中看到,秩序没有得到维持。但我做了一些测试,并保持了排序。

没有,没有保证。

groupBy导致的Shuffling和hashing意味着排序与前面的orderBy不同。应该在之后再做。这是老岗位和新岗位的结果。

最新更新