杀死xxx,因为云不再接受新的H2O节点



plz help~

我创建了一个设置副本:3的h2o有状态集,然后我运行了一个h2o-automl作业,它运行得很好。但突然有一个pod崩溃了,我用kubectl delete pod h2o-k8s-1来删除这个pod。statefulset-create-and-new pod具有相同的名称h2o-k8s-1。但问题是,新的pod无法加入h2o集群,作业被卡住,日志如下

FJ-126-3  WARN water.default: Killing h2o-stateful-set-1.h2o-service.dhr-h2o.svc.cluster.local/10.177.5.212:54321 because the cloud is no longer accepting n
ew H2O nodes.

我知道在发射过程中,新的H2O节点会形成一个集群。在集群上启动作业后,它会阻止新成员加入。但是,如果集群吊舱在训练中出现故障,我该怎么办?

是的,这是意料之中的事。一旦其中一个节点崩溃,您将需要重新启动整个集群。您需要确保您配置了kubernets作业,这样pod就不会被抢占。

相关内容

  • 没有找到相关文章

最新更新