我试图理解使用本地目录的含义,例如file:///checkpoints/
state.checkpoints.dir
.我的困惑是1(可能有多个任务管理器,这是否意味着每个任务管理器都将自己的检查点保存到其本地磁盘?2(这在像Kubernetes这样的环境中有效吗?因为 Pod 可能会在集群中移动。
这行不通。state.checkpoints.dir
必须是集群中每台机器都可以访问的 URI,即某种分布式文件系统。这对于在任务管理器发生故障的情况下进行恢复,或者当需要重新分发状态以进行重新缩放时,这是必需的。
您可能还希望每个任务管理器还在本地保留其状态的副本,以便更快地恢复;有关该选项的信息,请参阅任务本地恢复。