如何用纱线在Cloudera上添加Spark Worker节点



我们有Cloudera 5.2,用户想开始使用SPARK具有全部潜力(在分布式模式下,以便使用HDFS获得数据局部性),服务已经安装,并且在Cloudera Manager状态(在主页中)中可用,但是单击服务然后"实例"时,它仅显示历史服务器角色,而在其他节点中则显示了网关服务器角色。从我对Spark体系结构的理解中,您有一个主节点和工人节点(与HDFS DataNodes一起生活),因此在Cloudera Manager中,我尝试了"添加角色实例",但只有"网关"角色可用。如何将Sparks Worker节点(或执行器)角色添加到拥有HDFS DataNodes的主机?还是不必要的(我认为由于纱线,纱线负责创建执行者和应用程序主人)?主节点是什么情况?我是否需要配置任何东西,以便用户可以在其完整的分布式模式下使用Spark?

主角和工人角色是Spark独立服务的一部分。您可以选择使用纱线(主节点和工人节点无关)或火花(独立的)。

当您启动Spark Service而不是Cloudera Manager中的Spark(独立)时,Spark已经使用了纱线。在Cloudera Manager 5.2及更高版本中,有两个独立的Spark Services(Spark and Spark(独立))。Spark Service作为纱线应用程序运行,除了Spark History Server角色外,只有网关角色。

如何将Sparks Worker节点(或executor)角色添加到主机 您有HDFS DataNodes?

不需要。这些主机上只需要网关角色。

引用CM文档:

在Cloudera Manager Gateway角色中,请注意群集中其他主机的客户端配置。因此,请确保将网关角色分配给集群中的主机。如果您没有网关角色,则不会部署客户端配置。

最新更新