是否有任何火花配置参数可以调整以减少驱动器节点内存消耗



是否有任何可以调整的火花配置参数,以减少驱动程序节点的内存消耗?

我正在使用pyspark、scikit-learn和joblibspark在YARN集群上执行分布式超参数RandonSearchCV。看起来驱动程序节点的内存消耗大致等于所有工作节点的内存消费之和。由于每个节点的内存消耗是有限的,驱动程序节点很快就达到了这个极限。

最终,我发现库joblibspark对这项工作非常不利,尤其是如果你有一个大的(就内存而言(特征矩阵。因此,我实现了随机搜索";"从头开始";对于scikit,学习使用本地pyspark功能的模型,这样我就不会在计算结束时在驱动程序节点收集整个结果。我发现pyspark中的pandas UDF特别有用。

最新更新