Pyspark中的比较数据框架



我有两个数据帧,其中一个来自数据库,具有以下字段:

<表类> 名称 id tbody><<tr>bakarery010203040000150010203040000160010203040000180医院010203040000190面包店010203040000200

假设第一个是df1,第二个是df2:

df2.join(df1, on="name").where(df1["id"] != df2["id"]).show()
+--------+----------+---------------+                                           
|    name|        id|             id|
+--------+----------+---------------+
|bakarery|1020304050|010203040000150|
|hospital|3040506070|010203040000190|
+--------+----------+---------------+

或:

df2.subtract(df1).show()
+--------+----------+                                                           
|    name|        id|
+--------+----------+
|bakarery|1020304050|
|hospital|3040506070|
+--------+----------+
d = {'bakery':'010203040000150','store':'010203040000160'}
import pandas as pd
df1=pd.DataFrame(data=d,index=[0])
d1={'bakery':'1020304050','store':'010203040000160'}
df2=pd.DataFrame(data=d1,index=[0])
df3=df1==df2
df4=df2.mask(~df3).fillna(df2)
df4
bakery  store
0   1020304050  010203040000160

上面的代码是为一个小示例执行的,但它应该可以完成工作。

最新更新