从其他列在 Apache Spark 中创建映射列



我搜索了很多,但找不到任何可以适应我的情况的东西。我有一个这样的数据帧:

+-----------------+---------------+
|             keys|         values|
+-----------------+---------------+
|[one, two, three]|[101, 202, 303]|
+-----------------+---------------+

键有一个字符串数组,值有一个整数数组。

我想创建一个新列,其中包含键到值的映射,如下所示:

+-----------------+---------------+---------------------------+
|             keys|         values|                        map|
+-----------------+---------------+---------------------------+
|[one, two, three]|[101, 202, 303]|Map(one->101, two->202, etc|
+-----------------+---------------+---------------------------+

我一直在研究这个问题,但不确定它是否可以用作我的情况的起点:Spark 数据帧列转换为映射类型和映射类型列表

请在斯卡拉需要这个。

谢谢!

从Spark 2.4开始,有一个内置版本 def map_from_arrays(keys: Column, values: Column): Columnorg.apache.spark.sql.functions

您可以创建与链接问题中类似的 UDF:

 val toMap = udf((keys: Seq[String], values: Seq[Int]) => {
    keys.zip(values).toMap
  })

并将其用作:

df.withColumn("map", toMap($"keys", $"values"))

相关内容

  • 没有找到相关文章

最新更新