Spark DataFrame 类上的 union() 方法在哪里



我正在使用Spark的Java连接器,并希望合并两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是有意的吗,有没有办法在没有重复的情况下合并两个数据帧?

这是故意的吗

如果认为可以安全地假设它是故意的。其他工会运营商,如RDD.unionDataSet.union也将保留重复项。

如果你考虑一下是有道理的。虽然等效于UNION ALL的操作只是一个逻辑操作,不需要数据访问或网络流量,找到不同的元素需要随机播放,因此可能非常昂贵。

有没有办法合并两个没有重复的数据帧?

df1.unionAll(df2).distinct()

最新更新