在Pyspark中,我们有:first((函数返回列中的第一个元素,当ignoreNulls设置为True时,它返回第一个非null元素last((函数返回列中的最后一个元素,当ignoreNulls设置为True时,它将进一步返回最后一个非null元素
我想知道,如果我们有scala-spark-env的等效方法。
提前谢谢。
是的,它在Scala Spark中与PySpark一样可用。
df.select(functions.first("col1",ignoreNulls = true),
functions.last("col2",ignoreNulls = true))
.show(false)
是。
快速查看文档可获得first
和last
:https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/functions$.html#first(columnName:String(:org.apache.spark.sql.Column
def first(columnName: String): Column
聚合函数:返回组中某列的第一个值。
默认情况下,函数会返回它看到的第一个值。当ignoreNulls设置为true时,它将返回它看到的第一个非null值。如果所有值都为null,则返回null。
Spark是使用Scala开发的,因此您想在Spark中使用的任何Scala方法都是可用的。