我希望将Pandas库API(绘图,索引(与Spark数据帧一起使用。在df.toPandas()
的Pyspark中,df
是Spark SQL数据帧,这种方法会将整个Spark数据帧拉取到本地内存中,从而违背了Spark分布式计算框架的目的。因此toPandas()
该方法效率低下。
我查看了其他python库,如SparklingPandas和Blaze,它们试图将Pandas与Spark数据帧集成,同时保持数据的分布。但是它们与 Spark2.x 不兼容,或者它们没有适当的文档,或者它们不是贡献或最新版本版本。
我非常想与Spark合作,但我也想使用Pandas Dataframes API。Spark数据帧(Spark 2.2(没有像Pandas那样具有足够的功能。
Spark数据帧(Spark 2.2(没有像Pandas那样具有足够的功能。
它们没有足够的功能,因为横向扩展需要严格的权衡。许多功能(如您想要的绘图或索引(没有多大意义,或者对于大于内存和分布式数据会造成严重的性能损失。
你只需要克服这样一个事实,即为了能够扩展,你必须放弃一些功能。