我导入了一个df到Databricks作为pyspark.sql.dataframe.DataFrame。在这个df中,我有3列(我已经验证为字符串),我希望连接。我试着用简单的"+"功能优先,例如
df["fullname"] = df["firstname"] + df["middlename"] + df["lastname"]
但是我一直收到错误"'DataFrame'对象不支持项赋值"。因此,我试图在每列之后添加.astype(str),但无济于事。最后,我试着再加一列数字5:
df['new_col'] = 5
并收到相同的错误。所以现在我想也许这个数据框是不可变的。但我甚至试图复制原来的df,希望我能修改它
df2 = df.select('*')
但是我又一次无法连接或修改新的数据框架。
任何帮助都非常感谢!
您可以使用toPandas
将数据框转换为pandas数据框。我认为最终的数据框架将是可变的。