小贝子编程

groupBy的Java Spark替代方案

本文关键字：方案 Spark Java groupBy apache-spark apache-spark-sql apache-spark-dataset
更新时间 : 2023-09-21
英文 : Java Spark alternative for groupBy

我有一个包含column1和column2的数据集。我想分配新的列值"；x〃；如果"；列1"；值在数据集中出现多次。我可以使用group-by来实现这一点。

dataset.groupBy("column1").count()

但这种方法逐个数据集创建一个组，然后我必须在逐个数据集的组和原始数据集之间进行连接，以找到计数并将新值分配为"0"；X〃；如果count大于1。是否可以在不创建新数据集的情况下实现相同的结果？

您可以使用窗口函数添加一列计数：

dataset.withColumn("count_column2", count("column2").over(Window.partitionBy("column1")))

最新更新

无法向 Tkinter 窗口添加背景
如何将RGB图像转换为灰度，但保持一种颜色?——Java
我应该在Docker内部还是在虚拟环境中安装气流?
属性错误： 'DataFrame'对象没有属性'assign'
如何在每次在DirectoryInfo.GetFiles()中加载新文件时执行操作?
HTML中的Javascript在Angular中不起作用
如何在firebase中调度大约每整小时运行一次的函数?
Uncaught TypeError:不能访问数组上字符串类型的偏移量
Switch(Select)在TRANSFORM和Select之间工作吗?
MySQL SELECT查询工作，但具有相同WHERE子句的UPDATE查询不工作
drupal 10 localhost站点:如何在安装和注销后访问登录页面
Flutter原生启动画面图像未出现- Flutter (Dart)
用另一个远程分支覆盖一个远程分支
邮递员说"The route api...could not be found."(拉拉维尔)
Firebase Messaging项目Google Analytics升级失败
在初始页面加载时未应用FacetWP查询顺序数组设置
GitHub邀请过期吗?
使用AWS秘密管理器端点的安全组
如何做基于名称和值的点击事件？
在容器和主机上创建具有相同Linux用户id的用户
Firebase身份验证在部署后不工作.扑动Web应用程序显示空白的白色屏幕
AWS Client VPN Access Public URL/IP
python dict get方法即使key在dict中也运行第二个参数
如何在Python中使用每周时间序列
Scss函数没有返回计算值
如何使用conduit获取一个lazy ByteString并将其写入文件(在恒定内存中)
c -内存分配器-简单隔离存储:你如何从它的地址推断分配块的大小?
获取JSON格式的Discord PY对象
如何为作为prop传入的React组件设置类型
在c++中使用new时是否按顺序分配内存?

groupBy的Java Spark替代方案

相关内容

最新更新

热门标签：