我们有Hadoop集群(HDP 2.6.4集群,带ambari,有5个数据节点机器(
我们使用的是spark流应用程序(spark 2.1在Hortonworks 2.6.x上运行(
目前的情况是,spark流应用程序在所有数据节点机器上运行
正如一些人通过纱线节点标签所知,我们可以使spark流应用程序仅在第一台2数据节点机器上运行
因此,例如,如果我们在第一台2数据节点机器上配置纱线节点标签,那么在其他3台数据节点机器上将不会运行spark应用程序,因为纱线节点标签已禁用
我的问题是-是否可以通过纱线节点标签禁用最后3个数据节点机器上的HDFS(为了避免最后3个数字节点上的任何HDFS副本(
参考-http://crazyadmins.com/configure-node-labels-on-yarn/
您可以解除数据节点的任务。如果你这样做,那么根据定义,它不是HDFS的一部分,这意味着你基本上是在停止HDFS服务并将其从集群中删除,这是而不是与限制在它们上运行哪些作业(例如通过YARN节点标签(
节点标签控制哪些NodeManager运行代码,与DataNodes没有直接关系。
你可以让NodeManangers在DataNodes之外运行,但这违背了使用HDFS的";将计算移动到数据";,从而导致作业运行较慢的