如何使用spark-scala查找并删除记录之间的新行



样本输入

abc^Aabd^Aabe^Aabf^Aabh
abc^An
^Aasv^Asaf^Asaf^Asdf

预期输出

abc^Aabd^Aabe^Aabf^Aabh
abc^Aasv^Asaf^Asaf^Asdf

我正在shell中的spark Scala中尝试以上内容。Input结构为5列(无标题)、2行和ctrl A分隔。上面的输入文件在第二条记录的中间有一个"\n",我想删除中间的,但不是在END中。我在spark Scala中尝试了很多方法,但对我没有帮助。有人能帮助我吗

好吧,试试这个:

val arr = Array("abc^Aabd^Aabe^Aabf^Aabh", "abc^An^Aasv^Asaf^Asaf^Asdf")
arr.map( r => r.replaceAll("\^An"))

最新更新