火花 csv 中的多个空值



我有一个csv文件,其中包含"(空值)和"N/A"和"-"都在同一个文件中。我希望它们都作为空值读入数据帧。我知道 spark-csv "nullValue" 中有一个选项,它允许我将单个字符串视为 null。但对我来说,由于显而易见的原因,这还不够。

火花有一个悬而未决的问题,https://github.com/databricks/spark-csv/issues/333

它仍然开放。我想知道解决这个问题的最优雅的方法。

转贴自我的评论:

  • 将字段作为字符串读入数据帧
  • 在那里进行空替换
  • 将字段转换为 int
  • 然后将该数据帧转换为数据集

对于那些无法让它在 databricks 社区版笔记本上运行的人,您可能没有提到文件名。

最新更新