如何在不使用 toPandas 方法的情况下将 Pandas 数据帧 API 与 Spark 数据帧一起使用



我希望将Pandas库API(绘图,索引(与Spark数据帧一起使用。在df.toPandas()的Pyspark中,df是Spark SQL数据帧,这种方法会将整个Spark数据帧拉取到本地内存中,从而违背了Spark分布式计算框架的目的。因此toPandas()该方法效率低下。

我查看了其他python库,如SparklingPandasBlaze,它们试图将Pandas与Spark数据帧集成,同时保持数据的分布。但是它们与 Spark2.x 不兼容,或者它们没有适当的文档,或者它们不是贡献或最新版本版本。

我非常想与Spark合作,但我也想使用Pandas Dataframes API。Spark数据帧(Spark 2.2(没有像Pandas那样具有足够的功能。

Spark数据

帧(Spark 2.2(没有像Pandas那样具有足够的功能。

它们没有足够的功能,因为横向扩展需要严格的权衡。许多功能(如您想要的绘图或索引(没有多大意义,或者对于大于内存和分布式数据会造成严重的性能损失。

你只需要克服这样一个事实,即为了能够扩展,你必须放弃一些功能。

相关内容

  • 没有找到相关文章

最新更新