PySpark-本地系统性能



我是Pyspark的新手。我想在使用大型数据集解决Kaggle挑战时学习一个。

Pyspark在本地系统上使用时是否比Pandas具有性能优势?或者这无关紧要?

在本地运行时,pyspark运行的工作线程数量与机器上可用的逻辑核数量一样多-如果运行spark.sparkContext.master,它应该返回local[*](有关本地配置的更多信息,请参阅此处(。由于Pandas是单线程的(除非你使用像Dask这样的东西(,对于大型数据集,Pyspark应该更具性能。然而,由于使用多个线程、序列化数据和发送到JVM等相关的开销,Pandas对于较小的数据集可能会更快。

最新更新