小贝子编程

两组按数据集Spark Java API

本文关键字：数据集 Spark Java API 两组 java apache-spark apache-spark-sql hdfs
更新时间 : 2023-09-15
英文 : Two Group By Dataset Spark Java API

我是Spark Java API的新手。我想将两个groupby(Sum et Count(应用于我的数据集。

我的Ds是这样的。

+---------+------------+
|  account|    amount  |
+---------+------------+
| aaaaaa  |   1000     |
| aaaaaa  |   2000     |
| bbbbbb  |   4000     |
| cccccc  |   5000     |
| cccccc  |   3000     |

我想要一个数据集像这样。

+---------+------------+------------+
| account |    sum     |    count   |
+---------+------------+------------+
| aaaaaa  |   3000     |   2        |
| bbbbbb  |   4000     |   1        |
| cccccc  |   8000     |   2        |

有人能用Spark Java API 中的一个表达式来指导我吗

df.groupBy("account").agg(sum("amount"),count("account")).show()

最新更新

一种检查is_explicit _constructible的方法
从电子表格自动填充谷歌文档
由CSS值更改触发的CSS动画
CSS Sticky属性在本演示中不起作用
NodeJs与xmlrpc服务器通信，并对node-xmlrpc库进行base64编码，将下载的url图像编码为base
在管道中使用powershell如何使用在azure devops中触发的管道运行来获取shelvesset编号.<
我希望在表格单元格内的左、右位置的同一行中有不同的文本
Entity Framework ExecuteDelete没有按预期工作
颤振只加载某些riv (.riv)文件
Python问题我如何循环回我的代码?
asyncpg.exceptions.InvalidAuthorizationSpecificationError Py
为什么我的阅读更多按钮不工作?
如何得到拆分字符后的单词
在列表框之间移动项
设置 SKEmitterNode 的 'targetNode' 会导致奇怪的 'zPosition' 行为
我无法在斐波那契数列 python 中加强术语
用Jest测试使用jquery获取数据的异步函数
c#与HTML敏捷包不能得到div类的值
Python 中的 OOP 层次结构
我如何动画下拉菜单的高度使用顺风css
无法从字符串比较失败的字符串中删除"—"
无法获取熊猫数据帧中的第一列值
Odoo添加按钮应该重定向到我的模块视图
r语言 - 我如何得到比例在数据表没有组号重复?
无法使用 conda env 导入 OCI 笔记本会话中的模型配置详细信息
c - while循环中VSC的分段错误
无法将url数据获取到模型类中
如何将DataGridTextColumn绑定到WinUI3中绑定的对象中的方法?
错误在cobol程序上打开VB文件来处理XML文件
while循环在python中没有爆发

两组按数据集Spark Java API

相关内容

最新更新

热门标签：