***编辑
df_joint = df_raw.join(df_items,on='x',how='left')
标题异常发生在Apache Spark 2.4.5 中
df_ raw具有2列的数据";x〃"y";并且df_items是具有一些其他列的模式的空数据帧
左联接发生在一个为null的值上,它应该从第一个数据帧中获得整个数据,从第二个数据帧获得null列。
当";X〃;是漂浮的,当我如何铸造";X〃;隐式笛卡尔乘积的字符串抛出误差
我收到了这个错误的火花2.4.5。
为什么会发生这种情况,以及如何在不启用火花交叉连接的情况下解决此问题spark.conf.set("spark.sql.crossJoin.enabled", "true")
可能是Spark中的一个错误,但如果您只想添加列,可以执行以下操作:
import pyspark.sql.functions as F
df_joint = df_raw.select(
'*',
*[F.lit(None).alias(c) for c in df_items.columns if c not in df_raw.columns]
)