我有一个包含一个DateTime列和许多其他列的数据框架。
我所要做的就是解析这个DateTime列值并检查格式是否为"yyyy-MM-dd HH:mm:ss"
。如果是这样,那么我希望这些有效的记录在一个数据帧中。
如果DateTime列的值不是"yyyy-MM-dd HH:mm:ss"
格式。我希望那些无效的记录在其他数据框中。
谢谢。
您可以使用filter()
来获取数据框中的valid/invalid
记录。从scala的角度来看,这段代码可以改进。
val DATE_TIME_FORMAT = "yyyy-MM-dd HH:mm:ss"
def validateDf(row: Row): Boolean = try {
//assume row.getString(1) with give Datetime string
java.time.LocalDateTime.parse(row.getString(1), java.time.format.DateTimeFormatter.ofPattern(DATE_TIME_FORMAT))
true
} catch {
case ex: java.time.format.DateTimeParseException => {
// Handle exception if you want
false
}
}
val session = SparkSession.builder
.appName("Validate Dataframe")
.getOrCreate
val df = session. .... //Read from any datasource
import session.implicits._ //implicits provide except() on df
val validDf = df.filter(validateDf(_))
val inValidDf = df.except(validDf)
这里我们定义了一个函数来检查String
是否与您的格式要求兼容,并且我们将列表划分为兼容/非块。这些类型显示了完整的包名,但是您当然应该使用import
语句。
val fmt = "yyyy-MM-dd HH:mm:ss"
val df = java.time.format.DateTimeFormatter.ofPattern(fmt)
def isCompatible(s: String) = try {
java.time.LocalDateTime.parse(s, df)
true
} catch {
case e: java.time.format.DateTimeParseException => false
}
val dts = Seq("2016-11-07 15:16:17", "2016-11-07 24:25:26")
val yesNo = dts.partition { s => isCompatible(s) }
println(yesNo)
使用选项("dateFormat", "MM/dd/yyyy")验证数据框中的日期字段。它将丢弃无效的行。
val df=spark.read.format("csv").option("header", "false").
option("dateFormat", "MM/dd/yyyy").
schema(schema).load("D:/cca175/data/emp.csv")