spark 中的 dataframe.show() 和 dataframe.take() 有什么区别?为了提高性能,我们



我正在使用数据帧从镶木地板文件中读取数据,并创建一个临时视图并在临时视图上运行SQL查询。

spark.read.parquet("filename.parquet").createOrReplaceTempView("temptable")

val df = spark.sql("SELECT * FROM temptable")

检查我正在使用df.show() df的结果,但执行需要更多时间,如果我使用df.take(10)我没有看到任何区别

take()show()之间有什么区别吗,我应该使用哪种方法以获得更好的性能来检查结果

take()show()是不同的。 show()打印结果,take()返回行列表(在 PySpark 中),并可用于创建新的数据帧。它们都是动作。

打印结果

df.show() 

获取行列表 (PySpark)

sampleList = df.take(10)

相关内容

  • 没有找到相关文章

最新更新