小贝子编程

如何提高火花数据帧的过滤效率

本文关键字：过滤效率数据帧何提高火花 dataframe pyspark filter
更新时间 : 2023-09-20
英文 : How to improve efficiency in filtering spark dataframes

我有一个spark数据帧"df"；包含1600万行。

我想在其中一列上使用变量x来过滤数据帧。

我尝试过以下陈述：

df=df.其中(data.conationl==x(

df=df.filter(data.conationl==x(

这两种方法运行大约需要6分钟。我能做些什么来改善这个操作的运行时间吗？我正在AWS胶水中运行此代码。

尝试在不调用上述方法的情况下缓存它。

相关内容

最新更新