使用 Spark SQL 合并集类型列



我有两个数据集,其中的列具有集合的类型(例如,由collect_set函数生成的列)

我想将它们合并到某个连接中...即类似:

SELECT
   ...
   SOME_MERGE_FUNCTION(x.x_set, y.y_set) as unioned_set
FROM x LEFT OUTER JOIN y ON ...

Spark SQL中是否有像SOME_MERGE_FUNCTION这样的函数,它基本上可以创建x_sety_set的结合?

首先,没有设置列这样的东西。 collect_list返回ArrayType列。

此外,没有用于设置交集的内置功能。你能做的最好的事情就是使用UserDefinedFunction,例如Spark SQL中的数组交集所示

相关内容

  • 没有找到相关文章

最新更新