我在我的大型CSV文件中有一些损坏的行,由于缺少线路断裂,某些数据值会移动。这会导致在错误的列标题中出现的值。例如。如果我的表格中存在三列,,,,,,,,,,,,。
有办法让我放下所有行,例如我看到一个不合理的,我知道应该是一个INT吗?
您可以做的是循环循环,当lines.split(",").count()
不等于所需的内容时,您可以将其过滤出来。这样的东西:
import scala.io.Source
val n = 5 //or how many columns you require
Source.fromFile(input_file).getLines().toSeq.map(_.split(",")).filter(_.count == n)
这应该做您想要的事情:)