在Spark sql中使用org.apache.spark.sql.json创建临时视图



我有一些数据在谷歌存储桶。它是Json格式,起源于Kafka。我想用spark-sql在bucket的顶部创建一个临时视图。

我试过了

CREATE TEMPORARY VIEW TEMP_1 USING org.apache.spark.sql.json OPTIONS ( path "gs://xxx/xx/");

现在,当我尝试指定视图名称时,它只给我一个有限的长度,而不显示所有的列名。

keys    struct<eventIDs:array<string>,id:string>    NULL
values  struct<Column1:string,columns2:string... 298 more fields>   NULL

我应该怎么做,如果我想在视图中看到所有的列名?新的火花。任何帮助都会很感激。谢谢。

仍在寻找答案,因为以下可能的解决方案对我不起作用。我只能访问spark-sql shell。下面的答案指向使用scala环境,我没有访问权限。请帮助。由于

经过一番挖掘,找到了一个解决方案:

运行spark-shell

然后

scala> val path = "gs://XX/XX/X"
val df = spark.read.json(path)
df.printSchema()

效果很好。感谢每一个插话回答问题的人。我那低于平均水平的大脑花了一些时间才弄明白。

最新更新