我们目前正在使用 kubernetes 上运行 flink 作为作业集群,使用此 helm 模板:https://github.com/docker-flink/examples/tree/master/helm/flink(添加了一些配置(。
如果我想关闭群集,重新部署新映像(由于应用程序代码更新(并重新启动,我将如何从保存点还原?
jobmanager 命令是在 standalone-job.sh 命令上严格设置的,如果我在部署 k8s 资源的参数中添加保存点,那么如果 flink 重新启动(由于某些系统错误(,它将始终从该保存点重新启动,这不是我们想要的。
有没有办法从最新的保存点恢复,如果该保存点不存在,它将从 kubernetes 作业集群 helm 配置重新开始?
我不认为我了解您的完整设置,但我从您的问题中读到您的 Flink 集群和作业恢复脚本 standalone-job.sh。
您可以定期创建保存点,并使用最新的保存点 ID 更新配置。
您的 Flink 恢复脚本不应指向特定的保存点,而应指向始终包含最新保存点 ID 的配置值。
根据对 Flink 作业的更改,从保存点恢复并不总是可能的,因此您还需要考虑这种情况。