如何使用固定大小的键将行拆分为(键,值)对


我是Apache Spark的新手,我有一个文件,其中前10个字符是键,其余

是值的每个句子,我如何对其应用Spark排序以提取每个句子的前10个字符作为键,其余作为数据,所以最后我得到一个[键,值] 将 Rdd 配对为输出。

map takedrop应该可以解决问题:

rdd.map(line => (line.take(10), line.drop(10)))

排序:

val sorted = rdd.sortByKey

准备输出:

val lines = sorted.map { case (k, v) => s"$k $v" }

相关内容

  • 没有找到相关文章

最新更新