Pyspark 中的重复数据删除问题

>我有一个数据帧，其中包含许多行 id、date 和其他信息。它包含 2,856,134 条记录。与 ID 不同的计数将生成 1,552,184 条记录。

使用这个：

DF2 = sorted(DF.groupBy(DF.id).max('date').alias('date').collect())

为我提供了每个 ID 的最大日期，并生成了 1,552,184 条记录，与上述记录匹配。目前为止，一切都好。

我尝试将DF2重新加入DF，其中id = id，max_date = date：

df3 = DF2.join(DF,(DF2.id==DF.id)&(DF2.Max_date==DF.date),"left")

这会产生 2,358,316 条记录 - 这与原始数量不同。

我将代码更改为：

df3 = DF2.join(DF,(DF2.id==DF.id)&(DF2.Max_date==DF.date),"left").dropDuplicates()

这将产生 1,552,508 条

记录（这很奇怪，因为它应该从上面消除重复的 DF2 返回 1,552,184 条记录）。

知道这里发生了什么吗？我认为这与我的连接函数有关。

谢谢！

是因为您的表 2 有重复的条目，例如： Table1 Table2 _______ _________ 1 2 2 2 3 5 4 6 SELECT Table1.Id, Table2.Id FROM Table1 LEFT OUTER JOIN Table2 ON Table1.Id=Table2.Id

结果： 1,null 2,2 2,2 3,null 4,null

我希望这能帮助您解决问题

相关内容

最新更新

热门标签：