小贝子编程

pyspark中的哈希代码生成

本文关键字：代码生成哈希 pyspark apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-10
英文 : hash code generation in pyspark

我正在尝试为我的数据框中的每一行生成障碍物，并且需要将哈希码作为新列" pitid"附加到dataframe。

我尝试了以下代码，但获取错误

h=hashlib.md5(c)

这里c是一个数据框。

错误

TypeError: object supporting the buffer API required

在pyspark中尝试以下代码这里c是dataframe

h=c.rdd.map(lambda x: hash(x)) //generate hash code
r=Row("pitid")
h1=h.map(r).toDF() // converting rdd h to dataframe

使用单调_increasing_id

加入两个数据框

h2=h1.withColumn("rowId", monotonically_increasing_id())
c1=c.withColumn("rowId", monotonically_increasing_id())
c1.join(h2,c1.rowId==h2.rowId,'inner').drop(c1.rowId).drop(h2.rowId).show()

希望这有效

最新更新

RegEx在SAP 7.5中以字符的第一次出现开始并结束
使用MS Graph Rest APi上传文件到Documentset
忽略正则表达式搜索中的模式错误，不要使搜索崩溃
在一个帐户上有多个Youtube频道.如何将提供的API密钥限制为仅1个通道?
如何根据输入列表中的项数更改URL ?
scipy. integrated .quad给出ValueError:给出无效的可调用对象
将Pandas Datetime转换为Postgres Date
不能在caporal中使用prog模块
使用Powershell打开特定的Outlook配置文件
如何在WrapPanel中获得元素的坐标?
如何检查webpack.config.js中的监视模式?
如何创建动态正则表达式生成器?
ActorReferences作为Akka中其他角色的成员变量
我不知道有什么区别
文字SQL工作：数组值必须以"{"或维度信息开头
Go-使函数与外观相似的结构切片一起工作的惯用方法
在一个弹出窗口中管理多个输入的焦点
r语言 - 进行单向方差分析
当应用程序保持打开状态时，标识会话超时
在cmake中使用PUBLIC/PRIVATE/INTERFACE的例子
不能将反射字段强制转换为映射
return NULL for whois python3
Sequelize如何将日期格式设置为YYYY-MM-DD HH:mm:ss并将列保持蛇形大小写 &
如何从给定字符串中删除字符?(python中的字符串操作)
WMI wbemtest错误0x80070005访问被拒绝
如何从Android应用程序发送数据到Node.js
单元格列表与LazyVGrid有时消失
flutter stripe付款错误尚未初始化付款单
在使用@ pip安装需求时，部署到heroku失败
setTimeout结束后如何填充元素?

pyspark中的哈希代码生成

相关内容

最新更新

热门标签：