小贝子编程

Spark 匹配长列表中的任何列

本文关键字：任何列列表 Spark join pyspark apache-spark-sql
更新时间 : 2023-09-08
英文 : Spark match any column from a long list

>我需要连接两个表，条件是表中的一列匹配形成一个很长的列表的任何列，即以下内容：

columns = ['name001', 'name002', ..., 'name298']
df = df1.join(df2, (df1['name']==df2['name1']) | (df1['name']==df2['name2']) | ... | df1['name']==df2['name298'])

如何在 Pyspark 中实现此连接，而无需编写长条件？非常感谢！

您可以使用循环遍历columns列表来构建join表达式：

join_expr = (df1["name"] == df2[columns[0]])
for c in columns[1:]:
    join_expr = join_expr | (df1["name"] == df2[c])

或使用functools.reduce：

from functools import reduce
join_expr = reduce(
    lambda e, c: e | (df1["name"]==df2[c]),
    columns[1:], 
    df1["name"]==df2[columns[0]]
)

现在使用 join_expr 加入：

df = df1.join(df2, on=join_expr)

Spark 匹配长列表中的任何列

相关内容

最新更新

热门标签：