小贝子编程

如何在Spark SQL(DataFrame)的UDF中使用常量值

本文关键字：UDF 常量 Spark SQL DataFrame scala apache-spark apache-spark-sql
更新时间 : 2023-09-01
英文 : How to use constant value in UDF of Spark SQL(DataFrame)

我有一个包含timestamp的数据帧。为了按时间（分钟、小时或天）进行聚合，我尝试了以下方式：

val toSegment = udf((timestamp: String) => {
  val asLong = timestamp.toLong
  asLong - asLong % 3600000 // period = 1 hour
})
val df: DataFrame // the dataframe
df.groupBy(toSegment($"timestamp")).count()

这很好用。

我的问题是如何将UDF toSegment概括为

val toSegmentGeneralized = udf((timestamp: String, period: Int) => {
  val asLong = timestamp.toLong
  asLong - asLong % period
})

我试过如下，但它不起作用

df.groupBy(toSegment($"timestamp", $"3600000")).count()

它似乎找到了名为3600000的列。

可能的解决方案是使用常量列，但我找不到它。

您可以使用org.apache.spark.sql.functions.lit()创建常量列：

import org.apache.spark.sql.functions._
df.groupBy(toSegment($"timestamp", lit(3600000))).count()

如何在Spark SQL(DataFrame)的UDF中使用常量值

相关内容

最新更新

热门标签：