Apache Spark部署在具有HA功能的Hadoop Yarn集群上

我是大数据环境的新手，刚刚开始使用Zookeeper安装具有HA功能的3节点Hadoop集群2.6。

目前一切都很好，我已经在NN1和NN2上使用zookeeper测试了故障转移场景，效果很好。

现在我正在考虑在我的Hadoop Yarn集群上安装ApacheSpark，它也具有HA功能。

有人能指导我安装步骤吗？我只能找到如何在单机模式下设置Spark，以及我已经成功设置了哪些。现在我想在Yarn集群中安装相同的HA Capability、

我有三个节点的集群（NN1、NN2、DN1），以下守护进程当前正在这些服务器上运行，

Nodes running in Master NameNode (NN1)
Jps 
DataNode    
DFSZKFailoverController 
JournalNode 
ResourceManager 
NameNode    
QuorumPeerMain  
NodeManager 
Nodes running in StandBy NameNode (NN2)
Jps 
DFSZKFailoverController 
NameNode    
QuorumPeerMain  
NodeManager 
JournalNode 
DataNode    
Nodes running in DataNode (DN1)
QuorumPeerMain  
Jps 
DataNode    
JournalNode 
NodeManager

您应该设置ResourceManager HA(http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html)。在YARN上运行时，Spark不会运行自己的守护进程，因此在YARN模式下没有需要HA的Spark部分。

您可以配置Spark Yarn模式，在Yarn模式中，您可以根据集群容量配置驱动程序和执行程序。

spark.executor.memory <value>

执行器的数量是根据您的YARN容器内存分配的！

相关内容

最新更新

热门标签：