我的一个输入文件是csv(用逗号分隔(。其中一个字段是地址,其中包含换行符。因此,当我使用 Spark 读取它时,这给我带来了相当大的麻烦,其中一条输入记录被拆分为多个记录。
有没有人能够找到解决这个问题的解决方案。当前完成的解决方法是在读取 Spark 之前在源端删除数据中的换行符。
我想在火花中为此创建一个通用解决方案。我使用Scala数据帧api。
您可以尝试 csv 阅读器的multiLine
选项。
spark.read.csv(file, multiLine=True)