我正试图以以下方式分割我的数据文件。
1 1#1097#2321#2018
2 12#312#123#1211
所以我希望得到的RDD是:
1 1
1 1097
1 2321
1 2018
2 12
2 312
2 123
假设您已经将您的行作为RDD(并且在输入中没有可能的错误,我不会计算,因此您可以添加一些预验证/过滤):
lines.flatMap { case line =>
val Array(head, other) = line.split(" ")
other.split('#').map(o => head -> o)
}