我正在使用Spark SQL,并对它的美丽功能感到满意。
我想在 Spark sql 支持的 SQL 语句中添加用户定义函数 (UDF)。我有一个二进制格式的位图数组数据,它用作 UDF 的布隆过滤器。
我可以强制每个工作线程实例将整个数据结构(布隆过滤器)保留在内存中并将其与 UDF 一起使用吗?
谢谢
闭包中引用的每个本地对象都将被简单地序列化并与相应的任务一起传输。除此之外,Spark 不会应用任何特殊转换 - 如果您有本地内存数据结构,当您在任务中使用它时,它不会更改。