在pyspark中从列表的列表中生成多个列表



我有以下模式的一些记录:

(key,[[value1,value2],[value3,value4]])

我想做的是为每条记录发出:

(key,[value1,value2])
(key,[value3,value4])

在Pyspark中使用RDD API

对于输入和输出之间的一对多关系,我认为我可以使用flatMap,但我不确定如何在这种情况下应用它。什么好主意吗?

您可以使用flatMapValues:

rdd2 = rdd.flatMapValues(lambda x: x)

最新更新