想象一个包含两列的表格t
- col24
和col18
我想做一个数据框'r'。这样生成的数据框将只有一列col24
称为 first_name
。
我已经尝试了以下代码,但它不起作用,但我得到不正确的帮助我解决
import pyspark.sql.functions as f
r = t.select(f.explode("col24").alias("first_name")).toPandas()
import pyspark.sql.functions as f
如果我正确理解了您的问题,这两个选项应该有效:
r = t.select('col24').f.withColumnRenamed('col24', 'first_name')
r = t.withColumnRenamed('col24', 'first_name').drop('col18')
例如,如果列表中有多个列my_cols,则第二个选项变为:
r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)
然后,您可以检查数据帧:
r.show()
或者,如果 t 很大,只需检查列名:
r.columns
请在下面找到您的预期答案:
select(f.col("col24").alias("first_name"))