Spark DataFrame Groupby并计算复杂的聚合功能



使用Spark DataFrame,我需要使用以下内容来计算百分比复杂公式:

按"键"组和计算" re_pct"为(sum(sa)/sum(sa/(pct/100))) * 100

例如,输入数据帧是

val values1 = List(List("01", "20000", "45.30"), List("01", "30000", "45.30"))
  .map(row => (row(0), row(1), row(2)))
val DS1 = values1.toDF("KEY", "SA", "PCT")
DS1.show()
+---+-----+-----+
|KEY|   SA|  PCT|
+---+-----+-----+
| 01|20000|45.30|
| 01|30000|45.30|
+---+-----+-----+

预期结果:

+---+-----+--------------+
|KEY|    re_pcnt         |
+---+-----+--------------+
| 01|   45.30000038505   |
+---+-----+--------------+

我试图计算以下

    val result = DS1.groupBy("KEY").agg(((sum("SA").divide(
  sum(
    ("SA").divide(
      ("PCT").divide(100)
    )
  )
)) * 100).as("re_pcnt"))

但是面对错误:(36,16)值分割不是字符串的成员(" sa")。划分({

有关实施上述逻辑的任何建议?

您可以尝试导入spark.implicits._,然后使用$参考列。

val spark = SparkSession.builder.getOrCreate()
import spark.implicits._
val result = DS1.groupBy("KEY")
  .agg(((sum($"SA").divide(sum(($"SA").divide(($"PCT").divide(100))))) * 100)
  .as("re_pcnt"))

将为您提供所需的输出。

如果您不想导入,则可以随时使用col()命令而不是$


使用expr(),可以将字符串用作agg()功能的输入。但是,需要对输入字符串更改。以下给出与以前完全相同的结果,但使用字符串:

val opr = "sum(SA)/(sum(SA/(PCT/100))) * 100"
val df = DS1.groupBy("KEY").agg(expr(opr).as("re_pcnt"))

请注意,.as("re_pcnt")需要在agg()方法内,它不能在外面。

您的代码几乎可以完美地工作。您只需要放置" $"符号就可以指定您通过一列:

val result = DS1.groupBy($"KEY").agg(((sum($"SA").divide(
  sum(
    ($"SA").divide(
      ($"PCT").divide(100)
    )
  )
)) * 100).as("re_pcnt"))

这是输出:

result.show()
+---+-------+                                                                   
|KEY|re_pcnt|
+---+-------+
| 01|   45.3|
+---+-------+

相关内容

  • 没有找到相关文章

最新更新