小贝子编程

Pyspark大数据问题-如何从另一个数据帧添加列(没有常见的联接列)，大小可能不均衡

本文关键字：常见不均衡问题数据 Pyspark 添加数据帧另一个 dataframe join pyspark bigdata
更新时间 : 2023-09-21
英文 : Pyspark Big data question - How to add column from another dataframe (no common join column) and sizes can be uneven

我正在寻找一种从一个pyspark数据帧添加列的方法，假设这是DF1:

窗口函数row_number和ntile的组合可能就是答案：

或者，代替ntile(n)，DF2也可以获得基于row_number()的列id，然后可以用于计算mod:

df.withColumn("id_mod", col("id") % lit(df1_count))

然后使用CCD_ 13 将CCD_

相关内容