我有数据框架列名称列表,我需要连接(list_name=["name","email"]),我有一个数据框架与许多列(df="name","email","地址","电话")。现在我需要为list中指定的名称的值连接并创建一个新列。
预期结果:df="name","email","address" phone","nameemail">
列表=["name","email"。但是列表是动态的(它可能有n个值)
df
<表类>
名称
邮件
手机
tbody><<tr>ram ram@gmail.com 345897045 raj raj@gmail.com 658086657 表类>
使用concat
函数应该很简单。你至少应该试着展示你做了什么,但这应该是一种方式:
from pyspark.sql.functions import concat
val concatColumns = ... // List of column names to concatenate
val newColumnName = concatColumns.mkString
expexteddf = df.addColumn(newColumnName, concat(concatColumns: _*))