Pyspark:如何在没有字符的情况下转换数据帧


矩阵(类型数组(
[TKI1]
[TKI4]

因为您的Marticule一开始是ArrayType。您可以直接使用下面的getItem-

数据准备

df = pd.DataFrame({
'Matricule':[['TKI1'],['TKI4']],
})
sparkDF = sql.createDataFrame(df)
sparkDF.show()
+---------+
|Matricule|
+---------+
|   [TKI1]|
|   [TKI4]|
+---------+
sparkDF.printSchema()
root
|-- Matricule: array (nullable = true)
|    |-- element: string (containsNull = true)

获取项目

sparkDF = sparkDF.withColumn('Matricule_string',F.col('Matricule').getItem(0))
sparkDF.show()
+---------+----------------+
|Matricule|Matricule_string|
+---------+----------------+
|   [TKI1]|            TKI1|
|   [TKI4]|            TKI4|
+---------+----------------+

相关内容

最新更新