第一种和最后一种方法:scala、spark

在Pyspark中，我们有：first((函数返回列中的第一个元素，当ignoreNulls设置为True时，它返回第一个非null元素last((函数返回列中的最后一个元素，当ignoreNulls设置为True时，它将进一步返回最后一个非null元素

我想知道，如果我们有scala-spark-env的等效方法。

提前谢谢。

是的，它在Scala Spark中与PySpark一样可用。

df.select(functions.first("col1",ignoreNulls = true),
functions.last("col2",ignoreNulls = true))
.show(false)

是。

快速查看文档可获得first和last：https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/functions$.html#first(columnName:String(：org.apache.spark.sql.Column

def first(columnName: String): Column

聚合函数：返回组中某列的第一个值。

默认情况下，函数会返回它看到的第一个值。当ignoreNulls设置为true时，它将返回它看到的第一个非null值。如果所有值都为null，则返回null。

Spark是使用Scala开发的，因此您想在Spark中使用的任何Scala方法都是可用的。

相关内容

最新更新

热门标签：