>我在键值中有带有分隔符的输入数据集,如下所示,
key1:value1|key2:value2|key3:value3
key1:value4|key2:value5|key3:value6
我想创建一个格式为 的RDD/数据帧
value1|value2|value3
value4|value5|value6
我尝试使用Flatmap来分隔每个项目并映射以从记录中提取值,然后我在不同的行中得到我的输出。
你可以像这样映射:
(rdd
# Split by "|" and then for each item by ":"
.map(lambda xs: [x.split(":")[1] for x in xs.split("|")])
# Convert to tuple
.map(tuple)
.toDF(["key1", "key2", "key3"]))