在pyspark中为相同的customerID添加列值



我有两个DF一个是满载的,另一个是增量的,我想为customer_ID添加数据,这两个data_frames都是相同的。因此,我的最终输出是customer_ID是相同的,但值是更新的。我想在数据帧中做,我有另一种方法,这很麻烦但由于需要制作几个分段表我想避免,我如何将数据添加到主表

全表

tbody> <<tr>
customer_ID amount
ABC123420
ABC123510
ABC222220
ABC134510
ABC44445
ABC55559

您可以合并两个数据框,然后对同一客户的所有条目求和:

from pyspark.sql import functions as F
dfFull= ...
dfInc=...
dfResult=dfFull.union(dfInc).groupBy('customer_ID').agg(F.sum('amount').alias('amount'))

最新更新