在多个列上动态联接两个 Spark-Scala 数据帧,而无需硬编码联接条件



我想在多个列上动态连接两个 spark-scala 数据帧。我将避免硬编码列名比较,如以下语句所示;

val joinRes = df1.join(df2, df1("col1") == df2("col1") and df1("col2") == df2("col2"))

此查询的解决方案已存在于 pyspark 版本中 - 在以下链接中提供PySpark 数据帧 - 动态联接多个列

我想使用 spark-scala 编写相同的代码

在scala中,你以类似于python的方式做到这一点,但你需要使用map和reduce函数:

val sparkSession = SparkSession.builder().getOrCreate()
import sparkSession.implicits._
val df1 = List("a,b", "b,c", "c,d").toDF("col1","col2")
val df2 = List("1,2", "2,c", "3,4").toDF("col1","col2")
val columnsdf1 = df1.columns
val columnsdf2 = df2.columns
val joinExprs = columnsdf1
   .zip(columnsdf2)
   .map{case (c1, c2) => df1(c1) === df2(c2)}
   .reduce(_ && _)
val dfJoinRes = df1.join(df2,joinExprs)

最新更新