我有一个包含几条记录的文本文件,例如:
aaaaa
bbbbb
ccccc
我想在每个记录前面添加一个字符串(例如"record:"),这样它们中的每一个都会像:
record:aaaaa
record:bbbbb
record:ccccc
我有读取此文本文件并为该文件创建RDD的代码:
val aRdd = sc.textFile("/tmp/myFile")
如何使用 Spark 将字符串添加到此 RDD 中的每个记录? 非常感谢。
通过使用RDD.map
:
val rddWithRecord = sc.textFile("/tmp/myFile").map(currentWord => s"record:$currentWord")
rddWithRecord.print()