小贝子编程

GroupByKey并创建值pyspark SQL DataFrame的列表

本文关键字：DataFrame 列表 SQL pyspark 创建 GroupByKey apache-spark group-by apache-spark-sql
更新时间 : 2023-09-07
英文 : GroupByKey and create lists of values pyspark sql dataframe

所以我有一个像：

的火花数据框架

a | b | c
5 | 2 | 1
5 | 4 | 3
2 | 4 | 2
2 | 3 | 7

我想按列 a 进行分组，从列B创建一个值列表，然后忘记c。输出数据帧将是：

a | b_list
5 | (2,4)
2 | (4,3)

我将如何使用Pyspark SQL DataFrame进行此操作？

谢谢！：）

这是获取该数据框架的步骤。

>>> from pyspark.sql import functions as F
>>>
>>> d = [{'a': 5, 'b': 2, 'c':1}, {'a': 5, 'b': 4, 'c':3}, {'a': 2, 'b': 4, 'c':2}, {'a': 2, 'b': 3,'c':7}]
>>> df = spark.createDataFrame(d)
>>> df.show()
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  5|  2|  1|
|  5|  4|  3|
|  2|  4|  2|
|  2|  3|  7|
+---+---+---+
>>> df1 = df.groupBy('a').agg(F.collect_list("b"))
>>> df1.show()
+---+---------------+
|  a|collect_list(b)|
+---+---------------+
|  5|         [2, 4]|
|  2|         [4, 3]|
+---+---------------+

GroupByKey并创建值pyspark SQL DataFrame的列表

相关内容

最新更新

热门标签：