Pyspark查询多个JSON文件



我已上传到 Spark 2.2.0中,使用命令(python spark)在目录中包含的许多JSONL文件(所有这些结构都相同):df = spark.read.json(myDirectory)df.createglobaltempview(" mydatabase")sqldf = spark.sql("从mydatabase"中select count(*))sqldf.show()。

上传有效,但是当我查询sqldf( sqlDF.show())时,似乎火花仅计数一个文件的行(第一个?),而不是所有文件的行。我假设" myDatabase"是包含所有文件的数据框。

我缺少什么?

如果我仅上传一个仅由多个JSON对象的一行组成的文件{...},Spark可以正确识别表格结构。如果我有多个文件,我必须将每个{}放在新行上以获得相同的结果。

相关内容

  • 没有找到相关文章