两组按数据集Spark Java API



我是Spark Java API的新手。我想将两个groupby(Sum et Count(应用于我的数据集。

我的Ds是这样的。

+---------+------------+
|  account|    amount  |
+---------+------------+
| aaaaaa  |   1000     |
| aaaaaa  |   2000     |
| bbbbbb  |   4000     |
| cccccc  |   5000     |
| cccccc  |   3000     |

我想要一个数据集像这样。

+---------+------------+------------+
| account |    sum     |    count   |
+---------+------------+------------+
| aaaaaa  |   3000     |   2        |
| bbbbbb  |   4000     |   1        |
| cccccc  |   8000     |   2        |

有人能用Spark Java API 中的一个表达式来指导我吗

df.groupBy("account").agg(sum("amount"),count("account")).show()

最新更新