是否有用于为新开发的服务创建监视器的指南/最佳实践



我已经开发了一项新服务,该服务将在我公司内部使用。我有以下有关监视器的问题

  • 如何确定显示器的阈值(假设日志文件/5分钟中的错误数)?应该是高峰流量的3%或AVG流量的3%吗?
  • 如果流量是正弦波的形式,该怎么办?我如何确保我不会在高峰时段错过问题,同时确保我不会在高峰时段对误报感到震惊。

我知道这有点模糊,解决方案可能因服务而异。但是我对应遵循的最佳实践更感兴趣。

PS :我们已经有一个监视系统,我们只是在尝试使用正确的阈值创建警报。

我从上面感觉到两个问题:

  1. 对于新服务,我如何选择正确的错误/延迟/可用性阈值?
  2. 提供服务 具有正弦波模式的流量,我如何调整我的 在低/高流量情况下不要错过错误的阈值?

好吧,首先,理想的情况是延迟和可用性保证是您最初要求的一部分。如果您的服务没有为其设计,则很难将现有系统适应阈值或SLA。因此,希望您要么将这些数字作为需求(并纳入设计),要么在设计系统时要有一些目标。否则,您的服务不会比最好的情况更好。因此,选择一个。除非您可以选择重新构造系统,否则在这种情况下,返回正方形。

要警告各种流量模式,这取决于您可以使用哪种工具进行监视和警报。您提到您的公司已经有一个专用的监视系统。可能有解决方案可以使您在创建错误和延迟阈值时定义规则。根据这些工具的复杂性,这些规则甚至可以允许您定义相对于其他指标的阈值(例如该服务支持的主要产品/网站的总流量)。如果无法使用此类工具,它将变得很难,但是您可以通过百分比指标而不是绝对阈值来获得一些杠杆作用。喜欢错误的不应超过.001%。如果您的监视系统不支持此类计算,则可以探索Coda Hale编写的出色指标库来确定您服务本身中的某些百分位数。

最新更新