我是Spark Java API的新手。我想将两个groupby(Sum et Count(应用于我的数据集。
我的Ds是这样的。
+---------+------------+
| account| amount |
+---------+------------+
| aaaaaa | 1000 |
| aaaaaa | 2000 |
| bbbbbb | 4000 |
| cccccc | 5000 |
| cccccc | 3000 |
我想要一个数据集像这样。
+---------+------------+------------+
| account | sum | count |
+---------+------------+------------+
| aaaaaa | 3000 | 2 |
| bbbbbb | 4000 | 1 |
| cccccc | 8000 | 2 |
有人能用Spark Java API 中的一个表达式来指导我吗
df.groupBy("account").agg(sum("amount"),count("account")).show()