为什么我们需要在PySpark中注册UDF ?



如果我们仍然可以使用这个,为什么我们需要注册用户定义的函数呢?

def func(num):
return num*5.2
dataframe
.select(func(dataframe.rowName))
.show()

有什么好处吗?

将函数注册为UDF允许驱动程序序列化该函数并在整个集群中共享。在您的示例中,该函数仅在一台机器(驱动程序)上定义。

最新更新