我在 pyspark shell 中使用内部连接,如下所示:
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
由于我使用相同的表进行内连接,因此应该期望tab_df.count()
应该等于ori_df.count()
,但是tab_df.count()
给我0!
使用以下命令:
tab_df = ori_df.join(ori_df, ['column_name'])
默认情况下,pyspark 使用内部联接
我尝试在计算机中连接两个相同的表,它可以工作
为什么要连接两个相同的表?
然后你可以使用 pyspark 的 subtract() 方法。了解两个数据帧是否相等。