当列类型'struct'时,如何将文件写入csv?



我有一个输出火花数据帧,需要写入CSV。数据帧中的列是"结构"类型,csv 不支持。我正在尝试将其转换为字符串或转换为熊猫 DF,但没有任何效果。

userRecs1=userRecs.withColumn("recommendations", explode(userRecs.recommendations))

#userRecs1.write.csv('/user-home/libraries/Sampled_data/datasets/rec_per_user.csv')

预期结果:建议列为字符串类型,以便可以将其拆分为两个单独的列并写入 csv。

实际结果: (建议列是结构类型,不能写入 csv(

ID_CTE|  recommendations|
+-------+-----------------+
|3974081| [2229,0.8915096]|
|3974081| [2224,0.8593609]|
|3974081| [2295,0.8577902]|
|3974081|[2248,0.29922757]| 
|3974081|[2299,0.28952467]|

另一种选择是将结构列转换为 json,然后保存:

from pyspark.sql import functions as f
userRecs1 
.select(f.col('ID_CTE'), f.to_json(f.col('recommendations.'))) 
.write.csv('/user-home/libraries/Sampled_data/datasets/rec_per_user.csv')

以下命令会将StructType展平为单独的命名列:

userRecs1 
.select('ID_CTE', 'recommendations.*') 
.write.csv('/user-home/libraries/Sampled_data/datasets/rec_per_user.csv')

最新更新