从输入数据中获取值



>我在键值中有带有分隔符的输入数据集,如下所示,

key1:value1|key2:value2|key3:value3  
key1:value4|key2:value5|key3:value6  

我想创建一个格式为 的RDD/数据帧

value1|value2|value3  
value4|value5|value6  

我尝试使用Flatmap来分隔每个项目并映射以从记录中提取值,然后我在不同的行中得到我的输出。

你可以像这样映射:

(rdd
    # Split by "|" and then for each item by ":"
    .map(lambda xs: [x.split(":")[1] for x in xs.split("|")])
    # Convert to tuple
    .map(tuple)
    .toDF(["key1", "key2", "key3"]))

相关内容

  • 没有找到相关文章

最新更新