查找大数据的两个数据框架之间的差异



我需要得到两个数据框架之间的数据差异。我使用subtract()

# Dataframes that need to be compared
df1 
df2
#df1-df2
new_df1 = df1.subtract(df2)
#df2-df1
new_df2 = df2.subtract(df1)

它工作得很好,输出是我需要的,但我唯一的问题是性能。

即使比较1gb的数据,也需要大约50分钟,这远远不够理想。

是否有其他的优化方法来执行相同的操作?

以下是关于数据框架的一些细节:

  • df1 size = 9397995 * 30

  • df2 size = 1500000 * 30

  • 30列均为dtypestring

  • 两个数据框都是通过jdbc从数据库加载的连接。

  • 两个数据框架有相同的列名和相同的顺序。

你可以使用"WHERE"语句,以过滤掉不需要的行。例如通过PK,如果你知道df1的PK范围从1到100,你只需要在df2中过滤所有这些PK。显然,在union

之后

最新更新