使用Spark DataFrame,我需要使用以下内容来计算百分比复杂公式:
按"键"组和计算" re_pct"为(sum(sa)/sum(sa/(pct/100))) * 100
例如,输入数据帧是
val values1 = List(List("01", "20000", "45.30"), List("01", "30000", "45.30"))
.map(row => (row(0), row(1), row(2)))
val DS1 = values1.toDF("KEY", "SA", "PCT")
DS1.show()
+---+-----+-----+
|KEY| SA| PCT|
+---+-----+-----+
| 01|20000|45.30|
| 01|30000|45.30|
+---+-----+-----+
预期结果:
+---+-----+--------------+
|KEY| re_pcnt |
+---+-----+--------------+
| 01| 45.30000038505 |
+---+-----+--------------+
我试图计算以下
val result = DS1.groupBy("KEY").agg(((sum("SA").divide(
sum(
("SA").divide(
("PCT").divide(100)
)
)
)) * 100).as("re_pcnt"))
但是面对错误:(36,16)值分割不是字符串的成员(" sa")。划分({
)有关实施上述逻辑的任何建议?
您可以尝试导入spark.implicits._
,然后使用$
参考列。
val spark = SparkSession.builder.getOrCreate()
import spark.implicits._
val result = DS1.groupBy("KEY")
.agg(((sum($"SA").divide(sum(($"SA").divide(($"PCT").divide(100))))) * 100)
.as("re_pcnt"))
将为您提供所需的输出。
如果您不想导入,则可以随时使用col()
命令而不是$
。
使用expr()
,可以将字符串用作agg()
功能的输入。但是,需要对输入字符串更改。以下给出与以前完全相同的结果,但使用字符串:
val opr = "sum(SA)/(sum(SA/(PCT/100))) * 100"
val df = DS1.groupBy("KEY").agg(expr(opr).as("re_pcnt"))
请注意,.as("re_pcnt")
需要在agg()
方法内,它不能在外面。
您的代码几乎可以完美地工作。您只需要放置" $"符号就可以指定您通过一列:
val result = DS1.groupBy($"KEY").agg(((sum($"SA").divide(
sum(
($"SA").divide(
($"PCT").divide(100)
)
)
)) * 100).as("re_pcnt"))
这是输出:
result.show()
+---+-------+
|KEY|re_pcnt|
+---+-------+
| 01| 45.3|
+---+-------+