Spark 数据帧 UDF 将索引映射到值



我有一个火花数据框,其中一列由列表的索引组成。我想编写一个 udf,它允许我创建一个具有与索引关联的值的新列。

例如

假设我有以下数据帧和数组:

val df = spark.createDataFrame(Seq((0, Array(1, 1, 2)), (1, Array(1, 2, 0))))
df.show()
+---+---------+
| _1|       _2|
+---+---------+
|  0|[1, 1, 2]|
|  1|[1, 2, 0]|
+---+---------+
val sArray = Array("a", "b", "c")

我希望能够将_2中的指示映射到它们的值,sArray导致:

+---+---------+---------+
| _1|       _2|       _3|
+---+---------+---------+
|  0|[1, 1, 2]|[b, b, c]|
|  1|[1, 2, 0]|[b, c, a]|
+---+---------+---------+

我一直在尝试使用 udf 来做到这一点:

def indexer (values: Array[String]) = 
  udf((indices: Array[Int]) => indices.map(values(_)))
df.withColumn("_3", indexer(sArray)($"_2"))

但是,当我这样做时,我收到以下错误:

无法执行用户定义的函数

。原因:java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef 不能强制转换为 [I

这里出了什么问题?我该如何解决这个问题?

对数据帧中的ArrayType列进行操作时,传递到 UDF 的实际类型是 mutable.WrappedArray 。您看到的失败是尝试将此WrappedArray转换为函数期望的Array[Int]的结果。

修复相当简单 - 定义函数以期望mutable.WrappedArray[Int]

def indexer (values: Array[String]): UserDefinedFunction = {
  udf((indices: mutable.WrappedArray[Int]) => indices.map(values(_)))
}

最新更新