HDP 多节点群集上使用纱线客户端的 Spark 仅在同一个节点上启动执行器



>我已经在EC2上安装了一个带有Spark和Yarn的多节点HDP集群

每个节点都是数据节点。

Node3 是唯一的 Spark Client 节点。

每次我使用 yarn-client 或 yarn-cluster 模式运行 spark 作业时,它总是在 node3 上初始化 spark executor。而我希望作业使用每个节点。

我缺少哪些配置?

例如,我在 ambari 中设置 MASTER="yarn-client",但这并不能解决问题。

感谢您的帮助。

编辑:当我运行具有 30 个执行器的 Spark shell 时,它会在 node3 上启动 12 个执行器,并占用集群的 95%。所以我的猜测是,yarn 集群没有考虑节点 1 和节点 2 来分配 Spark 容器/执行器等资源。

不知道我应该修改哪个会议以将节点 1 和节点 2 添加到群集资源中

Okey 我真的很笨。

我必须将每个节点添加为 Yarn NodeManager。有了这个,我的 Spark 作业可以很好地分布在集群的每个节点上。

对不起,这太愚蠢

相关内容

  • 没有找到相关文章

最新更新