第一种和最后一种方法:scala、spark



在Pyspark中,我们有:first((函数返回列中的第一个元素,当ignoreNulls设置为True时,它返回第一个非null元素last((函数返回列中的最后一个元素,当ignoreNulls设置为True时,它将进一步返回最后一个非null元素

我想知道,如果我们有scala-spark-env的等效方法。

提前谢谢。

是的,它在Scala Spark中与PySpark一样可用。

df.select(functions.first("col1",ignoreNulls = true),
functions.last("col2",ignoreNulls = true))
.show(false)

是。

快速查看文档可获得firstlast:https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/functions$.html#first(columnName:String(:org.apache.spark.sql.Column

def first(columnName: String): Column

聚合函数:返回组中某列的第一个值。

默认情况下,函数会返回它看到的第一个值。当ignoreNulls设置为true时,它将返回它看到的第一个非null值。如果所有值都为null,则返回null。

Spark是使用Scala开发的,因此您想在Spark中使用的任何Scala方法都是可用的。

相关内容

最新更新