如何在任务状态TASK_LOST时减少任务终止周期时间



我正在很好地处理Marathon&mesos&docker,但它最近发现了一个问题.当mesos-slave遇到异常时,Marathon上的任务状态将变为TASK_LOST,并且任务不能仅在大约15分钟后才能被杀死。

我通过手动重新启动运行 mesos-slave 服务和 docker 并运行任务的操作系统进行了测试,然后马拉松 UI 中显示的任务状态变为"未计划(100%(",并且任务无法手动自动终止,直到大约 15 分钟。我的问题是如何减少这个时间?我尝试添加马拉松启动命令行参数

task_launch_confirm_timeout=30000
scale_apps_interval = 30000
task_lost_expunge_initial_delay = 30000
task_launch_timeout = 30000

并添加中间从启动命令行参数

recovery_timeout=1mins

但它对我不起作用。

要在 Mesos 代理进程失败时强制更改执行者自杀后的时间,您应该配置--recovery_timeout

分配给代理恢复的时间量。如果代理恢复的时间超过 recovery_timeout,则等待重新连接到代理的任何执行程序都将自行终止。(默认:15 分钟(

最新更新