有一个带有车辆数据的RDD。我能够获得RDD的键值对,并将LIC_state作为每个记录的键。
我如何将键控RDD划分为两个分区,在一个分区中保留密钥SA的记录,在另一个分区中保留其余记录
您可以编写并应用您的自定义分区器,该分区器根据键拆分数据。
首先定义分区器逻辑
def partitionFunc(key):
if key == "SA":
return 0
else
return 1
其中CCD_;LIC_ state";。然后将其应用于您的RDD
:
partitionedRDD = keyedRDD.partitionBy(2, partitionFunc)
其中keyedRDD
是密钥/值配对的RDD。