使用 Spark 分析 JSON 文件并提取键和值



我是火花的新手。我尝试使用 SparkSQL 在 Spark 中解析下面提到的 JSON 文件,但它不起作用。有人可以帮我解决这个问题吗?

输入JSON:

[{"num":"1234","Projections":[{"Transactions":[{"14:45":0,"15:00":0}]}]}]

预期产出:

1234 14:45 0n
1234 15:00 0

我尝试过使用以下代码,但它不起作用

val sqlContext = new SQLContext(sc)
val df = sqlContext.read.json("hdfs:/user/aswin/test.json").toDF();
val sql_output = sqlContext.sql("SELECT num, Projections.Transactions FROM df group by Projections.TotalTransactions ")
sql_output.collect.foreach(println)

输出:

[01532,WrappedArray(WrappedArray([0,0]))]
Spark 将您的

{"14:45":0,"15:00":0}映射识别为结构,因此读取数据的唯一方法可能是手动指定架构:

>>> from pyspark.sql.types import *
>>> schema = StructType([StructField('num', StringType()), StructField('Projections', ArrayType(StructType([StructField('Transactions', ArrayType(MapType(StringType(), IntegerType())))])))])

然后,您可以查询此临时表以使用多个爆炸来获取结果:

>>> sqlContext.read.json('sample.json', schema=schema).registerTempTable('df')
>>> sqlContext.sql("select num, explode(col) from (select explode(col.Transactions), num from (select explode(Projections), num from df))").show()
+----+-----+-----+
| num|  key|value|
+----+-----+-----+
|1234|14:45|    0|
|1234|15:00|    0|
+----+-----+-----+

相关内容

  • 没有找到相关文章

最新更新