将数据帧转换为以列表为值的字典



我有一个这样的数据框架:

案例description1 案例description2案例description3案例description4

你可以首先创建一个array从列A和b,然后,collect字典理解。

from pyspark.sql import functions as F
df = spark.createDataFrame(
[('case1', '%', 'case description1'),
('case2', 'ab', 'case description2'),
('case3', 'gh', 'case description3'),
('case4', 'sg', 'case description4')],
['ID', 'A', 'B'])
df = df.select('ID', F.array('A', 'B'))
dic = {k: v for k, v in df.collect()}
print(dic)
# {'case1': ['%', 'case description1'], 'case2': ['ab', 'case description2'], 'case3': ['gh', 'case description3'], 'case4': ['sg', 'case description4']}

最新更新