小贝子编程

类似pyspark中SQL的子查询

本文关键字：查询 SQL pyspark 类似 sql dataframe pyspark bigdata data-processing
更新时间 : 2023-09-21
英文 : Sub query like SQL in pyspark

我正在尝试进行这种查询：

SELECT age,COUNT(age)
FROM T
GROUP BY age
HAVING age = MIN(SELECT COUNT(age) FROM T GROUP BY age)
ODER BY COUNT(age)

我试过

min_size = df.groupBy("age").count().select(f.min("count"))
df.groupBy("age").count().sort("count").filter(f.col("count")==min_size).show()

但我得到了AttributeError: 'DataFrame' object has no attribute '_get_object_id'

有什么方法可以在PySpark中使用子查询吗？

在您的情况下，min_size是DataFrame，而不是某个整数
尝试将其收集为如下整数：

min_size = df.groupBy("age").count().select(f.min("count")).collect()[0][0]

最新更新

函数式语言类型推断混乱
使用Python从大文件解析数字数据时提高速度
如何从Multipass共享文件夹到主机?
从CMD或批处理文件中禁用"Notify me when the clock changes"设置
在Dockerfile中设置——net=host ?
如何在React中将arrayBuffer转换为JSON
是否有可能将html响应转换为json在扑动?
快速过滤numpy数组值的方法
C保存字符串的数组列表
需要minio film配置建议
如何应用CSS字体大小"relative to what it would be originally"？
该应用程序在个人帐户中未绑定脚本时被阻止错误
将原始查询转换为django orm
如何从出现次数和值的列表中创建一个新列表
使用Julia中的Julia Broadcasting根据数组的索引计算数组值
在javascript中使用条件更新嵌套数组
for循环多个条件
将第一列中的名称行转换为r中的列
Nx张量的映射切片
Dotnet Core Azure功能(隔离进程)如何加载应用程序.每个环境的Json
Discordjs不发送消息
边框在css中不显示
Python pandas中的深度嵌套JSON规范化
如何在JSON模式中从正确的对象中选择特定的字段
我可以在REST API中直接通过POST发送电话号码吗?
"onPressed: () {}"在颤振中不起作用
FbLitho在RecyclerCollectionComponent中重复视图，即使加载了新部分
Spring Data JPA对多对多关系的查询返回所有记录，而不是匹配的记录
在使用const断言递归时更改函数参数以接受子函数
我们可以通过调用Power BI Service/Workspace的export功能导出嵌入式Power BI报表的P

类似pyspark中SQL的子查询

相关内容

最新更新

热门标签：