Spark DataFrame计算的列



我正在学习Spark(Scala),并且我正在创建带有派生列的数据框架。我正在尝试找出最佳实践。

我的用例有2个派生的列,这些列寻找另一列以进行值 - 例如 -

if (col22 = "USD") then col1 = "US" elseif (col22 = "CDN" the col1 = "CA" else null)

另一个用例是

if(col23 = "us" && col100 = "abc") then col2 = "10" else if (col23 = "us" && col100 = "bacd" && col99 is null then col2 = 11 else null)

问题 - 我为上述计算编写了UDF函数。我想知道有更好的方法吗?正在编写UDF功能是最佳实践。我将在我的代码中仅使用一次这些功能。

我的Scala代码 -

def udf1 = udf((col22: String){  (col22) match {
    case col22 if (col22 == "USD") => "US"
    case col22 if (col22 == "CDN") => "CA"
    case _ => null  } })
val df1= df.select($"col1", $"col2", udf1($"col22").as("newcol"), udf2($"col23", $"col100").as(newcol2))

您可以做类似:

的事情
val df1 = df.withColumn(
  "newcol",
  when($"col22" === "USD", lit("US")).otherwise(
    when($"col22" === "CDN", lit("CA")).otherwise(lit(null))
  )
)

相关内容

  • 没有找到相关文章

最新更新