PySpark-本地系统性能

我是Pyspark的新手。我想在使用大型数据集解决Kaggle挑战时学习一个。

Pyspark在本地系统上使用时是否比Pandas具有性能优势？或者这无关紧要？

在本地运行时，pyspark运行的工作线程数量与机器上可用的逻辑核数量一样多-如果运行spark.sparkContext.master，它应该返回local[*](有关本地配置的更多信息，请参阅此处(。由于Pandas是单线程的(除非你使用像Dask这样的东西(，对于大型数据集，Pyspark应该更具性能。然而，由于使用多个线程、序列化数据和发送到JVM等相关的开销，Pandas对于较小的数据集可能会更快。

相关内容

最新更新

热门标签：