小贝子编程

如何将唯一 id 列添加到 DataFrame、Apache Spark、Scala

>我有一个数据帧，我想与另一个数据帧联接，然后按原始行分组，但原始行没有唯一 id。如何添加唯一 ID 或以其他方式实现该目标。

您可以使用monotonically_increasing_id

import org.apache.spark.sql.functions._
val unique_df = original_df.withColumn("UniqueID", monotonically_increasing_id)

Tawkir通过monotonically_increasing_id展示了在Scala中做到这一点的工作方式

但是，此导入：

import org.apache.spark.sql.functions._

不适用于Python.

正如user3245256在评论中提到的，对于Python导入将是：

from pyspark.sql.functions import monotonically_increasing_id

但。如果要使用 UUID 作为键，请尝试使用以下 Scala 调整数据帧：

import org.apache.spark.sql.functions._
dataFrame.withColumn("columnName", expr("uuid()"))

相关内容