小贝子编程

当转换为SPARK DataFrame时，JSON字段默认情况下会排序

本文关键字：默认字段情况下排序 JSON 转换 SPARK DataFrame json scala apache-spark apache-spark-sql
更新时间 : 2023-09-07
英文 : Json fields getting sorted by default when converted to spark DataFrame

当我从JSON文件创建数据帧时，json文件中的字段默认是在数据框架中对。如何避免这种排序？
JSONFILE每行有一个JSON消息：

{"name":"john","age":10,"class":2} {"name":"rambo","age":11,"class":3}

当我从此文件创建数据框架时，为：
val jDF = sqlContext.read.json("/user/inputfiles/sample.json")

作为
jDF: org.apache.spark.sql.DataFrame = [age: bigint, class: bigint, name: string]创建了DF。在df中，默认情况下对字段进行排序。
我们如何避免这种情况发生？

我无法理解这里出了什么问题。

感谢您解决问题的任何帮助。

对于问题1：

一种简单的方法是在DataFrame上进行select：

val newDF = jDF.select("name","age","class")

参数的顺序是您想要的列的顺序。

但是，如果有很多列，这可能是冗长的，您必须自己定义顺序。

相关内容