我有火花2.3.0。在本例中,orderBy之后的groupBy是否维护该顺序?
id date name
1 2020-10-01 name1
1 2020-09-01 name2
1 2020-11-01 name3
这是代码:
df
.orderBy(col("date"))
.groupBy(col("id"))
.agg(
first(col("name"))
).show()
我期待的结果:
id name
1 name2
我在旧帖子中看到,秩序没有得到维持。但我做了一些测试,并保持了排序。
没有,没有保证。
groupBy导致的Shuffling和hashing意味着排序与前面的orderBy不同。应该在之后再做。这是老岗位和新岗位的结果。