如何在不使用 toPandas 方法的情况下将 Pandas 数据帧 API 与 Spark 数据帧一起使用

我希望将Pandas库API(绘图，索引(与Spark数据帧一起使用。在df.toPandas()的Pyspark中，df是Spark SQL数据帧，这种方法会将整个Spark数据帧拉取到本地内存中，从而违背了Spark分布式计算框架的目的。因此toPandas()该方法效率低下。

我查看了其他python库，如SparklingPandas和Blaze，它们试图将Pandas与Spark数据帧集成，同时保持数据的分布。但是它们与 Spark2.x 不兼容，或者它们没有适当的文档，或者它们不是贡献或最新版本版本。

我非常想与Spark合作，但我也想使用Pandas Dataframes API。Spark数据帧(Spark 2.2(没有像Pandas那样具有足够的功能。

Spark数据
帧(Spark 2.2(没有像Pandas那样具有足够的功能。

它们没有足够的功能，因为横向扩展需要严格的权衡。许多功能(如您想要的绘图或索引(没有多大意义，或者对于大于内存和分布式数据会造成严重的性能损失。

你只需要克服这样一个事实，即为了能够扩展，你必须放弃一些功能。

相关内容

最新更新

热门标签：