小贝子编程

我有一个表't'，其中'col24'两列，'col23'我想创建一个数据框'r'

本文关键字：一个数据 col23 有一个其中 col24 两列创建 pyspark apache-spark-sql
更新时间 : 2023-09-11
英文 : I have a table 't' with two columns 'col24' and 'col23' I want to create a data frame 'r'

想象一个包含两列的表格t - col24和col18我想做一个数据框'r'。这样生成的数据框将只有一列col24称为 first_name 。

我已经尝试了以下代码，但它不起作用，但我得到不正确的帮助我解决


import pyspark.sql.functions as f
r = t.select(f.explode("col24").alias("first_name")).toPandas()

import pyspark.sql.functions as f

如果我正确理解了您的问题，这两个选项应该有效：

r = t.select('col24').f.withColumnRenamed('col24', 'first_name')
r = t.withColumnRenamed('col24', 'first_name').drop('col18')

例如，如果列表中有多个列my_cols，则第二个选项变为：

r = t.withColumnRenamed('col24', 'first_name').drop(*my_cols)

然后，您可以检查数据帧：

r.show()

或者，如果 t 很大，只需检查列名：

r.columns

请在下面找到您的预期答案：

select(f.col("col24").alias("first_name"))

相关内容