我有以下模式的一些记录:
(key,[[value1,value2],[value3,value4]])
我想做的是为每条记录发出:
(key,[value1,value2])
(key,[value3,value4])
在Pyspark中使用RDD API
对于输入和输出之间的一对多关系,我认为我可以使用flatMap,但我不确定如何在这种情况下应用它。什么好主意吗?
您可以使用flatMapValues
:
rdd2 = rdd.flatMapValues(lambda x: x)