我正在使用Spark的Java连接器,并希望合并两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是有意的吗,有没有办法在没有重复的情况下合并两个数据帧?
这是故意的吗
如果认为可以安全地假设它是故意的。其他工会运营商,如RDD.union
和DataSet.union
也将保留重复项。
如果你考虑一下是有道理的。虽然等效于UNION ALL
的操作只是一个逻辑操作,不需要数据访问或网络流量,找到不同的元素需要随机播放,因此可能非常昂贵。
有没有办法合并两个没有重复的数据帧?
df1.unionAll(df2).distinct()