在Spark DataFrame保存到JSON并加载回时,模式列序列会发生更改



我正在使用spark DataFrames,并试图对相同架构的DataFrames进行重复数据消除。

将DataFrame保存到JSON之前的模式如下:

root
 |-- startTime: long (nullable = false)
 |-- name: string (nullable = true)

从JSON文件加载后的DataFrame模式如下:

root
 |-- name: string (nullable = true)
 |-- startTime: long (nullable = false)

我将JSON保存为:

newDF.write.json(filePath)

并读回:

existingDF = sqlContext.read.json(filePath)

完成unionAll 后

existingDF.unionAll(newDF).distinct()

或除外

newDF.except(existingDF)

由于架构更改,重复数据消除失败。

我可以避免这种模式转换吗?有没有一种方法可以在保存到JSON文件和从JSON文件加载时保存(或强制执行)模式序列?

实现了一个变通方法,将模式转换回我需要的内容:

val newSchema = StructType(jsonDF.schema.map {
  case StructField(name, dataType, nullable, metadata) if name.equals("startTime") => StructField(name, LongType, nullable = false, metadata)
  case y: StructField => y
})
existingDF = sqlContext.createDataFrame(jsonDF.rdd, newSchema).select("startTime", "name")

相关内容

  • 没有找到相关文章

最新更新