小贝子编程

pyspark:在pyspark中连接两个数据框时，根据字段ingested_at合并两个有效负载字段

本文关键字：两个 pyspark 字段 ingested 负载有效合并 at 连接数据 python dataframe apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-22
英文 : pyspark: merge two payload fields based on field ingested_at while joining two dataframes in pyspark

下面有两个数据框

df1:

ingested_at16522652685761652265283215

可能有一个更优的解决方案，但从你给的信息来看，我假设df1和df2具有相同的模式

从合并两个dataframe开始:
对txn_id
丢弃排序表明不是最新记录的行

实现看起来像这样:

from pyspark.sql.functions import *
from pyspark.sql.window import Window
final_df = df1 
.unionByName(df2) 
.withColumn('row_num', row_number().over(Window.partitionBy('txn_id').orderBy(desc('ingested_at')))) 
.filter(col('row_num') > 1) 
.drop('row_num')

final_df将包含每个txn_id的最新记录

pyspark:在pyspark中连接两个数据框时，根据字段ingested_at合并两个有效负载字段

相关内容

最新更新

热门标签：