如何在Pyspark SQL中保存表



我想将结果表保存到CSV,TextFile或Similiar中,以便能够使用Rstudio进行可视化。

我正在使用pyspark.sql在Hadoop设置中执行一些查询。我想将结果保存在Hadoop中,然后将结果复制到本地驱动器中。

myTable = sqlContext.sql("SOME QUERIES")
myTable.show() # Show my result
myTable.registerTempTable("myTable") # Save as table
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop

这返回此:
attributeError:'dataframe'对象没有属性'saveastextfile'

这是我通常在仅使用pyspark时通常这样做的方式

然后我用

将其复制到本地驱动器
hdfs dfs –copyToLocal SEARCH PATH

任何人可以帮我吗?

您可以将DataFrameWriter与受支持的格式之一一起使用。例如JSON:

myTable.write.json(path)

相关内容

  • 没有找到相关文章

最新更新