我有一个表't',其中'col24'两列,'col23'我想创建一个数据框'r'



想象一个包含两列的表格t - col24col18我想做一个数据框'r'。这样生成的数据框将只有一列col24称为 first_name

我已经尝试了以下代码,但它不起作用,但我得到不正确的帮助我解决


import pyspark.sql.functions as f
r = t.select(f.explode("col24").alias("first_name")).toPandas()
import pyspark.sql.functions as f

如果我正确理解了您的问题,这两个选项应该有效:

r = t.select('col24').f.withColumnRenamed('col24', 'first_name')
r = t.withColumnRenamed('col24', 'first_name').drop('col18')

例如,如果列表中有多个列my_cols,则第二个选项变为:

r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)

然后,您可以检查数据帧:

r.show()

或者,如果 t 很大,只需检查列名:

r.columns

请在下面找到您的预期答案:

select(f.col("col24").alias("first_name"))

相关内容

  • 没有找到相关文章

最新更新