如何将常量值传递给 Python UDF



我在想是否可以创建一个接收两个参数的UDF,一个Column和另一个变量(ObjectDictionary或任何其他类型(,然后执行一些操作并返回结果。

实际上,我试图这样做,但我得到了一个例外。因此,我想知道是否有任何方法可以避免此问题。

df = sqlContext.createDataFrame([("Bonsanto", 20, 2000.00), 
                                 ("Hayek", 60, 3000.00), 
                                 ("Mises", 60, 1000.0)], 
                                ["name", "age", "balance"])
comparatorUDF = udf(lambda c, n: c == n, BooleanType())
df.where(comparatorUDF(col("name"), "Bonsanto")).show()

我收到以下错误:

分析异常:u"无法解析给定输入列的"Bonsanto" 姓名、年龄、平衡;">

所以很明显,UDF"看到"string"Bonsanto"作为列名,实际上我正在尝试将记录值与第二个参数进行比较。

另一方面,我知道可以在where子句中使用一些运算符(但实际上我想知道是否可以使用 UDF 来实现(,如下所示:

df.where(col("name") == "Bonsanto").show()
#+--------+---+-------+
#|    name|age|balance|
#+--------+---+-------+
#|Bonsanto| 20| 2000.0|
#+--------+---+-------+

传递给 UDF 的所有内容都被解释为列/列名。如果要传递文字,则有两种选择:

  1. 使用柯里明传递参数:

    def comparatorUDF(n):
        return udf(lambda c: c == n, BooleanType())
    df.where(comparatorUDF("Bonsanto")(col("name")))
    

    这可以与任何类型的参数一起使用,只要它是可序列化的。

  2. 使用 SQL 文本和当前实现:

    from pyspark.sql.functions import lit
    df.where(comparatorUDF(col("name"), lit("Bonsanto")))
    

    这仅适用于支持的类型(字符串、数字、布尔值(。对于非原子类型,请参阅如何在 Spark 数据帧中添加常量列?

相关内容

  • 没有找到相关文章

最新更新