pyspark中的哈希代码生成



我正在尝试为我的数据框中的每一行生成障碍物,并且需要将哈希码作为新列" pitid"附加到dataframe。

我尝试了以下代码,但获取错误

h=hashlib.md5(c)

这里c是一个数据框。

错误

TypeError: object supporting the buffer API required

在pyspark中尝试以下代码这里c是dataframe

h=c.rdd.map(lambda x: hash(x)) //generate hash code
r=Row("pitid")
h1=h.map(r).toDF() // converting rdd h to dataframe

使用单调_increasing_id

加入两个数据框
h2=h1.withColumn("rowId", monotonically_increasing_id())
c1=c.withColumn("rowId", monotonically_increasing_id())
c1.join(h2,c1.rowId==h2.rowId,'inner').drop(c1.rowId).drop(h2.rowId).show()

希望这有效

相关内容

  • 没有找到相关文章

最新更新