在火花中使用中位数而不是均值作为聚合函数



说我有一个包含汽车,品牌和价格的数据框架。我想由median(或另一个百分位数)替换下面的avg

df.groupby('carBrand').agg(F.avg('carPrice').alias('avgPrice'))

但是,似乎没有允许在Spark中计算此的聚合函数。

您可以尝试近似函数(请参阅http://spark.apache.org/docs/latest/api/api/python/python/pyspark.sql.html.html#module-pyspark.sql.functions。)

相关内容

  • 没有找到相关文章

最新更新