我有一些数据在谷歌存储桶。它是Json格式,起源于Kafka。我想用spark-sql在bucket的顶部创建一个临时视图。
我试过了
CREATE TEMPORARY VIEW TEMP_1 USING org.apache.spark.sql.json OPTIONS ( path "gs://xxx/xx/");
现在,当我尝试指定视图名称时,它只给我一个有限的长度,而不显示所有的列名。
keys struct<eventIDs:array<string>,id:string> NULL
values struct<Column1:string,columns2:string... 298 more fields> NULL
我应该怎么做,如果我想在视图中看到所有的列名?新的火花。任何帮助都会很感激。谢谢。
仍在寻找答案,因为以下可能的解决方案对我不起作用。我只能访问spark-sql shell。下面的答案指向使用scala环境,我没有访问权限。请帮助。由于
经过一番挖掘,找到了一个解决方案:
运行spark-shell
然后
scala> val path = "gs://XX/XX/X"
val df = spark.read.json(path)
df.printSchema()
效果很好。感谢每一个插话回答问题的人。我那低于平均水平的大脑花了一些时间才弄明白。