如何将连续'Ident'列添加到 Pyspark 中的数据帧,而不是 monotonically_increasing_id()?



我有一个dataframe'df',我想添加一个'IDENS'数字列,其中值是连续的。我尝试使用单调的_increasing_id()尝试,但是值不是连续的。正如描述所述:"生成的ID可以单调增加且独特,但不是连续的。"

所以,我的问题是,我该怎么办?

您可以尝试这样的事情,

df = df.rdd.zipWithIndex().map(lambda x: [x[1]] + [y for y in x[0]]).toDF(['Ident']+df.columns)

这将为您提供第一列作为标识符,该标识符的连续值从0到N-1,其中n是DF中的记录总数。

相关内容

  • 没有找到相关文章

最新更新