CSV 文件中处理 Spark 的新行



我的一个输入文件是csv(用逗号分隔(。其中一个字段是地址,其中包含换行符。因此,当我使用 Spark 读取它时,这给我带来了相当大的麻烦,其中一条输入记录被拆分为多个记录。

有没有人能够找到解决这个问题的解决方案。当前完成的解决方法是在读取 Spark 之前在源端删除数据中的换行符。

我想在火花中为此创建一个通用解决方案。我使用Scala数据帧api。

您可以尝试 csv 阅读器的multiLine选项。

spark.read.csv(file, multiLine=True)

相关内容

  • 没有找到相关文章

最新更新