如何提高火花数据帧的过滤效率



我有一个spark数据帧"df";包含1600万行。

我想在其中一列上使用变量x来过滤数据帧。

我尝试过以下陈述:

df=df.其中(data.conationl==x(

df=df.filter(data.conationl==x(

这两种方法运行大约需要6分钟。我能做些什么来改善这个操作的运行时间吗?我正在AWS胶水中运行此代码。

尝试在不调用上述方法的情况下缓存它。

最新更新