我正在使用数据帧从镶木地板文件中读取数据,并创建一个临时视图并在临时视图上运行SQL查询。
spark.read.parquet("filename.parquet").createOrReplaceTempView("temptable")
val df = spark.sql("SELECT * FROM temptable")
检查我正在使用df.show()
df
的结果,但执行需要更多时间,如果我使用df.take(10)
我没有看到任何区别
take()
和show()
之间有什么区别吗,我应该使用哪种方法以获得更好的性能来检查结果
take()
和show()
是不同的。 show()
打印结果,take()
返回行列表(在 PySpark 中),并可用于创建新的数据帧。它们都是动作。
打印结果
df.show()
获取行列表 (PySpark)
sampleList = df.take(10)