>我有一个数据帧,我想与另一个数据帧联接,然后按原始行分组,但原始行没有唯一 id。如何添加唯一 ID 或以其他方式实现该目标。
您可以使用monotonically_increasing_id
import org.apache.spark.sql.functions._
val unique_df = original_df.withColumn("UniqueID", monotonically_increasing_id)
Tawkir通过monotonically_increasing_id
展示了在Scala
中做到这一点的工作方式
但是,此导入:
import org.apache.spark.sql.functions._
不适用于Python
.
正如user3245256在评论中提到的,对于Python
导入将是:
from pyspark.sql.functions import monotonically_increasing_id
但。如果要使用 UUID 作为键,请尝试使用以下 Scala
调整数据帧:
import org.apache.spark.sql.functions._
dataFrame.withColumn("columnName", expr("uuid()"))