Spark数据帧-如何用顺序整数值填充null

假设我有一个pyspark数据帧，如下所示：

KEY    VALUE
---    -----
623    "cat"
245    "dog"
null   "horse"
null   "pig"
331    "narwhal"
null   "snake"

如何转换此数据帧，使KEY列中的任何null值都替换为从1开始的整数序列？期望的结果如下：

KEY    VALUE
---    -----
623    "cat"
245    "dog"
1      "horse"
2      "pig"
331    "narwhal"
3      "snake"

我知道你要求Python，但Scala中的等效程序可能会有所帮助。基本上，您希望将Window函数rank与函数coalesce一起使用。首先，我们定义了一些测试数据：

val df = Seq(
  (Option(623), "cat"),
  (Option(245),"dog"),
  (None, "horse"),
  (None, "pig"),
  (Option(331), "narwhal"),
  (None, "snake")
).toDF("key","value")

然后我们将rank一个key的所有实例，然后我们将使用coalesce来选择原始的key或新的rank，然后删除我们创建的rank列来清理它：

import org.apache.spark.sql.expressions._
import org.apache.spark.sql.functions._
val window = Window.partitionBy(col("key")).orderBy(col("value"))
df.withColumn("rank", rank.over(window))
  .withColumn("key", coalesce(col("key"),col("rank")))
  .drop("rank")

相关内容

最新更新

热门标签：