我有一个dataframe'df',我想添加一个'IDENS'数字列,其中值是连续的。我尝试使用单调的_increasing_id()尝试,但是值不是连续的。正如描述所述:"生成的ID可以单调增加且独特,但不是连续的。"
所以,我的问题是,我该怎么办?
您可以尝试这样的事情,
df = df.rdd.zipWithIndex().map(lambda x: [x[1]] + [y for y in x[0]]).toDF(['Ident']+df.columns)
这将为您提供第一列作为标识符,该标识符的连续值从0到N-1,其中n是DF中的记录总数。