我想在**pyspark**上的数据集上使用函数**"双变音"**
期望结果为布尔值:TRUE或FALSE
但是*@udf("bool"(*不起作用,有其他方法吗?
我想在**pyspark**上的数据集上使用函数**"双变音"**
期望结果为布尔值:TRUE或FALSE
但是*@udf("bool"(*不起作用,有其他方法吗?
from metaphone import doublemetaphone
@udf("bool")
def udf_doublemetaphone(a,b):
return doublemetaphone(a)== doublemetaphone(b)
data_set_doublemetaphone = (data_set.withColumn("doublemetaphone",
udf_doublemetaphone(col("A"),col("B")))) ```
我找到了
这是@udf(BooleanType(((
所以你可以这样使用:rom隐喻导入双隐喻
@udf(BooleanType())
def udf_doublemetaphone(a,b):
return doublemetaphone(a)== doublemetaphone(b)
data_set_doublemetaphone = (data_set.withColumn("doublemetaphone",
udf_doublemetaphone(col("A"),col("B")))) ```