令人困惑的内部加入 pyspark



我在 pyspark shell 中使用内部连接,如下所示:

tab_df=ori_df.join(ori_df,ori_df.columns,'inner')

由于我使用相同的表进行内连接,因此应该期望tab_df.count()应该等于ori_df.count(),但是tab_df.count()给我0!

使用以下命令:

tab_df = ori_df.join(ori_df, ['column_name'])

默认情况下,pyspark 使用内部联接

我尝试在计算机中连接两个相同的表,它可以工作

为什么要连接两个相同的表?

然后你可以使用 pyspark 的 subtract() 方法。了解两个数据帧是否相等。

相关内容

  • 没有找到相关文章

最新更新