我有一个spark数据帧"df";包含1600万行。
我想在其中一列上使用变量x来过滤数据帧。
我尝试过以下陈述:
df=df.其中(data.conationl==x(
df=df.filter(data.conationl==x(
这两种方法运行大约需要6分钟。我能做些什么来改善这个操作的运行时间吗?我正在AWS胶水中运行此代码。
尝试在不调用上述方法的情况下缓存它。
我有一个spark数据帧"df";包含1600万行。
我想在其中一列上使用变量x来过滤数据帧。
我尝试过以下陈述:
df=df.其中(data.conationl==x(
df=df.filter(data.conationl==x(
这两种方法运行大约需要6分钟。我能做些什么来改善这个操作的运行时间吗?我正在AWS胶水中运行此代码。
尝试在不调用上述方法的情况下缓存它。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium