我是Apache Spark的新手,我有一个文件,其中前10个字符是键,其余
是值的每个句子,我如何对其应用Spark排序以提取每个句子的前10个字符作为键,其余作为数据,所以最后我得到一个[键,值] 将 Rdd 配对为输出。
map
take
和drop
应该可以解决问题:
rdd.map(line => (line.take(10), line.drop(10)))
排序:
val sorted = rdd.sortByKey
准备输出:
val lines = sorted.map { case (k, v) => s"$k $v" }