Python:比较Python中具有不同数字行和Compsite键的两个数据帧



我有两个不同的数据帧需要比较。

这两个数据帧具有不同的行数,并且没有Pk-its复合主键(id||ver||name|prd||loc(

df1:

id ver name   prd  loc
a  1   surya  1a   x
a  1   surya  1a   y
a  2   ram    1a   x
b  1   alex   1b   z
b  1   alex   1b   y
b  2   david  1b   z

df2:

id ver name   prd  loc
a  1   surya  1a   x
a  1   surya  1a   y
a  2   ram    1a   x
b  1   alex   1b   z

我尝试了下面的代码,如果有相同数量的行,它就可以工作,但如果它像上面的情况,它就不工作了。

df1 = pd.DataFrame(Source)
df1 = df1.astype(str) #converting all elements as objects for easy comparison
df2 = pd.DataFrame(Target)
df2 = df2.astype(str) #converting all elements as objects for easy comparison

header_list =  df1.columns.tolist() #creating a list of column names from df1 as the both df has same structure
df3 = pd.DataFrame(data=None, columns=df1.columns, index=df1.index)
for x in range(len(header_list)) :
df3[header_list[x]] = np.where(df1[header_list[x]] == df2[header_list[x]], 'True', 'False')
df3.to_csv('Output', index=False)

如果有不同数量的od行,请告诉我如何比较数据集。

你可以试试这个:

~df1.isin(df2)
# df1[~df1.isin(df2)].dropna()

让我们考虑一个快速的例子:

df1 = pd.DataFrame({
'Buyer': ['Carl', 'Carl', 'Carl'],
'Quantity': [18, 3, 5, ]})
#    Buyer  Quantity
# 0  Carl        18
# 1  Carl         3
# 2  Carl         5
df2 = pd.DataFrame({
'Buyer': ['Carl', 'Mark', 'Carl', 'Carl'],
'Quantity': [2, 1, 18, 5]})
#    Buyer  Quantity
# 0  Carl         2
# 1  Mark         1
# 2  Carl        18
# 3  Carl         5

~df2.isin(df1)
#    Buyer  Quantity
# 0  False  True
# 1  True   True
# 2  False  True
# 3  True   True

df2[~df2.isin(df1)].dropna()
#   Buyer   Quantity
# 1 Mark    1
# 3 Carl    5

另一个想法是合并相同的列名。

当然,根据您的需要调整代码。希望这有帮助:(

相关内容

  • 没有找到相关文章

最新更新