使用YARN和Spark,每个worker有多个执行器



在我的公司,我们使用新旧机器的组合拼凑了一个非常异构的YARN + Spark集群。由于各个机器的统计数据差异很大,我希望能够在较大的机器上启动多个执行器。将--num-executors设置为大于集群中的机器数量是行不通的。是否需要更改其他设置才能启用此功能,或者根本不可能?

传递——executor-cores选项。这应该是~4为良好的性能:http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/

这将在4核机器上启动一个执行器,在16核机器上启动4个执行器。

相关内容

  • 没有找到相关文章

最新更新