假设以下两个dataframe在pyspark中具有相等的行数:
df1:
| _ Column1a
| _ Column1b
df2:
| _ Column2a
| _ Column2b
我想创建一个新的数据框架"df",只有列1a和列2a。最好的解决方案是什么?
丹尼·李的回答就是方法。
它涉及在两个dataframe上创建另一个列,这是每一行的Unique_Row_ID。然后对Unique_Row_ID执行连接。然后,如果需要,删除Unique_Row_ID