外部联接具有不相同联接列的Spark数据帧,然后合并联接列



假设我在pySpark中有以下数据帧:

df1 = sqlContext.createDataFrame([Row(name='john', age=50), Row(name='james', age=25)])
df2 = sqlContext.createDataFrame([Row(name='john', weight=150), Row(name='mike', weight=115)])
df3 = sqlContext.createDataFrame([Row(name='john', age=50, weight=150), Row(name='james', age=25, weight=None), Row(name='mike', age=None, weight=115)])

现在假设我想通过加入/合并df1df2来创建df3

我试着做

df1.join(df2, df1.name == df2.name, 'outer')

这并不完全有效,因为它产生了两个名称列。然后,我需要以某种方式将两个名称列组合起来,以便一个名称列中缺少的名称由另一名称列中丢失的名称填充。

我该怎么做?或者有更好的方法从df1df2创建df3吗?

您可以使用返回第一个非null参数的coallesce函数。

from pyspark.sql.functions import coalesce
df1 = df1.alias("df1")
df2 = df2.alias("df2")
(df1.join(df2, df1.name == df2.name, 'outer')
  .withColumn("name_", coalesce("df1.name", "df2.name"))
  .drop("name")
  .withColumnRenamed("name_", "name"))

这有点晚了,但如果有人需要,还有一个更简单的解决方案。只是对原始海报的解决方案进行了简单的更改:

df1.join(df2, 'name', 'outer')
df3 = df1.join(df2, ['name'], 'outer')

以这种方式联接将防止名称列的重复。https://kb.databricks.com/data/join-two-dataframes-duplicated-columns.html

相关内容

  • 没有找到相关文章

最新更新