在两个不同的PySpark. sql.dataframe中创建两个列的PySpark. sql.dataframe



假设以下两个dataframe在pyspark中具有相等的行数:
df1:
  | _ Column1a
  | _ Column1b

df2:
  | _ Column2a
  | _ Column2b

我想创建一个新的数据框架"df",只有列1a和列2a。最好的解决方案是什么?

丹尼·李的回答就是方法。
它涉及在两个dataframe上创建另一个列,这是每一行的Unique_Row_ID。然后对Unique_Row_ID执行连接。然后,如果需要,删除Unique_Row_ID

相关内容

  • 没有找到相关文章