小贝子编程

Pyspark中的Groupby和Standardise值

本文关键字：Standardise Groupby 中的 Pyspark python sql pyspark apache-spark-sql
更新时间 : 2023-09-19
英文 : Groupby and Standardise values in Pyspark

所以，我有一个类型的Pyspark数据帧

值

组
A	12
B	10
A	1
B	0
B	1
A	6

您可以使用窗口函数计算每组中的平均值和stddev：

from pyspark.sql import functions as F, Window
df2 = df.withColumn(
'Value', 
(F.col('Value') - F.mean('Value').over(Window.partitionBy('Group'))) / 
F.stddev_pop('Value').over(Window.partitionBy('Group'))
)
df2.show()
+-----+--------------------+
|Group|               Value|
+-----+--------------------+
|    B|  1.4083737016560922|
|    B| -0.8153742483272112|
|    B| -0.5929994533288808|
|    A|  1.2601238383238722|
|    A| -1.1859989066577619|
|    A|-0.07412493166611006|
+-----+--------------------+

请注意，结果的顺序将被随机化，因为Spark数据帧没有索引。

最新更新

在编写凯撒密码练习时，输入的秘密消息应该输出为VhfuhwqPhvvdjh，但它输出为VhfuhwqPhvvdjh.&l
所有的ARM编译器会产生相同的汇编代码并在不同的cpu上运行吗?
NestJS TypeORM createQueryBuilder SELECT query
JPARepository - delete使用日期比较与派生查询
将二进制文件内容转储为JSON数组
在RISC-V中，a1寄存器何时用于函数返回?
轨道："验证失败：类必须存在"在Form_with
为什么我的c#默认接口实现在具体的类定义中不被识别?
我应该如何处理Azure管道作业之间的中间构建文件?
如何让不和谐机器人在断开连接后向频道发送消息?
不能用作 JSX 组件。它的返回类型'void'不是有效的JSX element.ts(2786)
如何从同一个生产者向不同的Kafka主题和模式注册表生成消息
Docker只识别相对目录，不识别绝对目录
在Swift中创建子类时如何避免重复属性定义?
覆盖参数[和]之间的文本文件
如何使用Joi验证十进制数的精度
如何在Android Studio的调试模式中跳过for循环的一次迭代?
如何从文件中删除短行文本
SQL基于一个列的重复数据行
页面右侧没有填充或边距
Rails:在PostgreSQL中存储高货币值
使用Angular 2使用鼠标点击或键盘选项卡的触发函数
Azure搜索solr索引定义以支持多个市场
在python中派生相同的类两次是可以的吗?
无法使用 docker 多阶段构建执行 go 二进制文件
CSS "overflow： hidden;" 仍然适用于伪 "：：after"
如何从bash中的源脚本中获取源bash-dir
JMH - 如何正确对线程池进行基准测试
当使用' show '而不是整个show字符串时，我如何访问数据类型的字段?
Open API version 3.1示例请求(json)

Pyspark中的Groupby和Standardise值

相关内容

最新更新

热门标签：