>我已经在EC2上安装了一个带有Spark和Yarn的多节点HDP集群
每个节点都是数据节点。
Node3 是唯一的 Spark Client 节点。
每次我使用 yarn-client 或 yarn-cluster 模式运行 spark 作业时,它总是在 node3 上初始化 spark executor。而我希望作业使用每个节点。
我缺少哪些配置?
例如,我在 ambari 中设置 MASTER="yarn-client",但这并不能解决问题。
感谢您的帮助。
编辑:当我运行具有 30 个执行器的 Spark shell 时,它会在 node3 上启动 12 个执行器,并占用集群的 95%。所以我的猜测是,yarn 集群没有考虑节点 1 和节点 2 来分配 Spark 容器/执行器等资源。
不知道我应该修改哪个会议以将节点 1 和节点 2 添加到群集资源中
Okey 我真的很笨。
我必须将每个节点添加为 Yarn NodeManager。有了这个,我的 Spark 作业可以很好地分布在集群的每个节点上。
对不起,这太愚蠢
了