小贝子编程

pyspark只保留一种类型的群

本文关键字：一种类型保留 pyspark pyspark group-by apache-spark-sql
更新时间 : 2023-09-21
英文 : pyspark keep only one type of group

假设我想检查同一组的不同名称计数，并且我只想在该组中保留一个名称。

df.groupBy('job','age','gender').agg(countDistinct('name')).filter('count(DISTINCT name)>1').show()

job	age	gender	count(DISTINCT名称(
工程师	22	M

您可以使用rank窗口函数。

w = Window.partitionBy('job', 'age', 'gender').orderBy(desc('name'))
df = (df.withColumn('rnk', rank().over(w))
.filter(col('rnk') == 1))

最新更新

错误:未能将一些参考推入' path '
我如何让matplotlib正确格式化这些datetime64对象?
如何删除重复的行基于多列值在亚马逊雅典娜?
无法"npm install"项目
Applescript在文件夹中搜索带有关键字的照片
在CocoaPods任务中运行管道时出错
我是如何设法在通常的 conf 设置之外定义一个 XAMPP Apache 额外目录的？找不到证据
我的主要分支是错误的，我想用另一个分支重写它，我怎么能做这样的事情?
防止在for循环中展开的函数的形参中展开变量
自动伸缩组实例未在ALB上注册
我有一个问题与基础SQLITE3，如何解决它?
react useEffect(): Hello只记录一次
ViewBinding within Broadcast Receiver
为什么x输入事件不再被Tk事件回调处理(Ubuntu 22.04, Tk 8.6.12)?
如何降低MSAA内存使用率?
Apache Flink -匹配具有相同值的字段
如何在jquery中添加?
如何在AVAudioPCMBuffer上做偏移?
定义函数以返回类的属性需要什么？
Php对象组数组
如何用Angular/Javascript创建工作流图
颤镖"unconditionally accessed because the receiver can be 'null'."问题
无法从'pydantic'(未知位置)导入名称'BaseModel'
处理多个实例上的websocket连接
r语言 - 如何使用随机生成的数据对ridge/lasso回归进行交叉验证?
Julia通过关键字参数的数量来识别方法
Firebase 函数部署失败，并出现"缺少"依赖项错误
使用通配符复制文件 * 为什么它不起作用？
c语言 - 如果我只在以"rb"模式打开的文件的情况下使用它，将 fgetc() 结果转换为 short 是否安全？
增加lambda函数中的值

pyspark只保留一种类型的群

相关内容

最新更新

热门标签：