我正在尝试为我的数据框中的每一行生成障碍物,并且需要将哈希码作为新列" pitid"附加到dataframe。
我尝试了以下代码,但获取错误
h=hashlib.md5(c)
这里c是一个数据框。
错误
TypeError: object supporting the buffer API required
在pyspark中尝试以下代码这里c是dataframe
h=c.rdd.map(lambda x: hash(x)) //generate hash code
r=Row("pitid")
h1=h.map(r).toDF() // converting rdd h to dataframe
使用单调_increasing_id
加入两个数据框h2=h1.withColumn("rowId", monotonically_increasing_id())
c1=c.withColumn("rowId", monotonically_increasing_id())
c1.join(h2,c1.rowId==h2.rowId,'inner').drop(c1.rowId).drop(h2.rowId).show()
希望这有效