小贝子编程

Pyspark DataFrames上的自定义聚合

本文关键字：自定义 DataFrames Pyspark apache-spark pyspark apache-spark-sql aggregate-functions user-defined-functions
更新时间 : 2023-09-07
英文 : Custom aggregation on PySpark dataframes

我有一个带有一个列的pyspark数据框，作为一个热编码的向量。我想通过groupby

来汇总一个不同的热编码向量

例如。df[userid,action] Row1: ["1234","[1,0,0]] Row2: ["1234", [0 1 0]]

我希望输出为行： ["1234", [ 1 1 0]]，因此向量是由 userid分组的所有向量的总和。

我该如何实现？pyspark和汇总操作不支持向量添加。

您有几个选择：

两个选项2＆amp;3将相对效率低下（CPU和存储器的成本）。

相关内容