小贝子编程

如何使用 Spark 数据帧实现"over (partition by value)"

本文关键字：partition by value over Spark 数据帧实现何使用 apache-spark-sql hiveql
更新时间 : 2023-09-10
英文 : How to implement "over (partition by value)" using Spark Dataframe

我正计划修改Spark DataFrame列以实现以下蜂巢QL的相似目的：

SELECT Id, MIN(Id) over (PARTITION BY Age) Rep FROM Employees

我的问题是如何在UDF中实现" Over（partition by ..）"？

我的电话是这样的：

def _udfuntion = { ... }
val ownfunc = udf(_udfunction)
df.withColumn("Rep", ownfunc($"Id", $"Age"))

您需要使用用户定义的聚合功能（UDAF）而不是UDF。

那里有一些很棒的例子，例如https://docs.databricks.com/spark/latest/spark-sql/udaf-scala.html和https://jaceklaskowski.gitbooks.io/mastering-apache-park/spark-sql-userdefinedaggregatefunction.html

最新更新

discord bot分片，并从数组结果中处理对象
python patoolib可执行文件句柄无效
测试时间序列数据中未戳的分钟数
如何在cloud Foundry的内部域中(apps.internal)为运行的应用创建用户提供的服务
在Jupyter Notebook中显示未显示在if-else块内的HTML类
如何控制可变的输入量- React
从json文件中创建gcloud配置
为用户代理(即操作系统)设置值的自定义代码
当我在c++中使用类中的类时得到警告
ImageMagik图片渲染不正常，白色方块布满图片
崩溃时，解构boost io_service
None typeobject in success_url django
在amazon eks kubernetics环境之外运行的Ignite厚客户端是否有可能访问amazon eks ku
Jest (ESM)在单元测试中会从React Native加载文件
Optimize Spark Shuffle Multi Join
如何把不同的图像和重定向用户到ListView Builder的其他页面?
在Thingsboard k8s部署版本，我怎么能改变' JWT_TOKEN_EXPIRATION_TIME ' ?&l
生成可变分钟间隔
如何将动画添加到可编写脚本的对象?
是春季安全ACL应该是可用的WebSecurityExpressionHandler?
在python中处理全局变量
Cypress:代码进入无限循环，当满足条件时无法打破循环
如何在Django中使用本地SQLite3数据库进行测试和MSSQL数据库进行生产?
绘制没有插值的动画
Javascript动画只占屏幕的一半
Ansible - 模板字符串时列出比较问题：预期的令牌"："，'}'
()->() 不能符合形状样式
Oracle SYSDATE - 1/8是什么意思?
使用c#上传xml文件到Azure FTP文件夹
在多个钱包之间分配铸造资金 solana metaplex & candymachine

如何使用 Spark 数据帧实现"over (partition by value)"

相关内容

最新更新

热门标签：