我有两个DF一个是满载的,另一个是增量的,我想为customer_ID添加数据,这两个data_frames都是相同的。因此,我的最终输出是customer_ID是相同的,但值是更新的。我想在数据帧中做,我有另一种方法,这很麻烦但由于需要制作几个分段表我想避免,我如何将数据添加到主表
全表
customer_ID | amount | ABC1234 | 20 |
---|---|
ABC1235 | 10 |
ABC2222 | 20 |
ABC1345 | 10 |
ABC4444 | 5 |
ABC5555 | 9 |
您可以合并两个数据框,然后对同一客户的所有条目求和:
from pyspark.sql import functions as F
dfFull= ...
dfInc=...
dfResult=dfFull.union(dfInc).groupBy('customer_ID').agg(F.sum('amount').alias('amount'))