如何选择执行器的数量、每个执行器的核心和执行器内存



10 Node集群,每台机器都有RAM 的16 cores126.04 GB

应用程序输入数据集围绕1TB10-15 files,并且存在一些聚合(groupBy(

作业将使用Yarn作为资源调度程序运行

我的问题是如何选择num个执行器,执行器内存,执行器核心,驱动程序内存,驱动程序核心?

我倾向于使用这个工具-http://spark-configuration.luminousmen.com/,对于分析我的Spark Jobs,这个过程确实需要一些尝试,但它对长期运行的有帮助

此外,您还可以了解Spark Memory的工作原理-https://luminousmen.com/post/dive-into-spark-memory

相关内容

  • 没有找到相关文章