使用pyspark将两个不同行的值添加为一个



我有两行完全相同的数据,但这两行之间的列变化:

5.12 2.20

您需要使用array_join函数将collect_list的结果用逗号(,)连接起来。

df = df.groupBy('id', 'product').agg(
F.array_join(F.collect_list('class'), ',').alias('class'),
F.sum('cost').alias('cost')
)

最新更新