我有两个数据集,其中的列具有集合的类型(例如,由collect_set
函数生成的列)
我想将它们合并到某个连接中...即类似:
SELECT
...
SOME_MERGE_FUNCTION(x.x_set, y.y_set) as unioned_set
FROM x LEFT OUTER JOIN y ON ...
Spark SQL中是否有像SOME_MERGE_FUNCTION
这样的函数,它基本上可以创建x_set
和y_set
的结合?
首先,没有设置列这样的东西。 collect_list
返回ArrayType
列。
此外,没有用于设置交集的内置功能。你能做的最好的事情就是使用UserDefinedFunction
,例如Spark SQL中的数组交集所示