我有一个这样的数据框架:
案例description1
案例description2案例description3案例description4
你可以首先创建一个array
从列A和b,然后,collect
字典理解。
from pyspark.sql import functions as F
df = spark.createDataFrame(
[('case1', '%', 'case description1'),
('case2', 'ab', 'case description2'),
('case3', 'gh', 'case description3'),
('case4', 'sg', 'case description4')],
['ID', 'A', 'B'])
df = df.select('ID', F.array('A', 'B'))
dic = {k: v for k, v in df.collect()}
print(dic)
# {'case1': ['%', 'case description1'], 'case2': ['ab', 'case description2'], 'case3': ['gh', 'case description3'], 'case4': ['sg', 'case description4']}