警报优先级-100%离线生产主机与环境警报(100%驾驶室硬件过热)



在标题中列出的两个警报中,您会优先修复哪一个?

我认为环境警报更重要,因为物理硬件的损失可能比生产暂时关闭更具破坏性。不过,生产主机100%离线也是一个主要问题。

我想我很难确定在一个大规模系统中,这两个系统中的任何一个每分钟的损失值。

如果两个警报都针对同一环境,那么"生产停机"似乎是"硬件过热"的结果。

因此,后者可能是需要首先解决的根本原因。

从逻辑上讲,如果硬件过热,就没有任何剩余的生产运行空间。除非您准备好了场外灾难恢复系统。在这种情况下,不同的人可以同时对警报采取行动。也就是说,可能会有一个团队负责生产正常运行时间,他们会更多地关注第一个警报,而另一个团队则负责硬件,他们会关注第二个警报。因此,让最终用户配置优先级可能是值得的。

最新更新