10 Node
集群,每台机器都有RAM 的16 cores
和126.04 GB
应用程序输入数据集围绕1TB
和10-15 files
,并且存在一些聚合(groupBy
(
作业将使用Yarn作为资源调度程序运行
我的问题是如何选择num个执行器,执行器内存,执行器核心,驱动程序内存,驱动程序核心?
我倾向于使用这个工具-http://spark-configuration.luminousmen.com/,对于分析我的Spark Jobs,这个过程确实需要一些尝试,但它对长期运行的有帮助
此外,您还可以了解Spark Memory的工作原理-https://luminousmen.com/post/dive-into-spark-memory