我有一个csv文件,其中包含"(空值)和"N/A"和"-"都在同一个文件中。我希望它们都作为空值读入数据帧。我知道 spark-csv "nullValue" 中有一个选项,它允许我将单个字符串视为 null。但对我来说,由于显而易见的原因,这还不够。
火花有一个悬而未决的问题,https://github.com/databricks/spark-csv/issues/333
它仍然开放。我想知道解决这个问题的最优雅的方法。
转贴自我的评论:
- 将字段作为字符串读入数据帧
- 在那里进行空替换
- 将字段转换为 int
- 然后将该数据帧转换为数据集
对于那些无法让它在 databricks 社区版笔记本上运行的人,您可能没有提到文件名。