2016-11-29 44 views
0

我开发了一种新的服务,将在我公司内部使用。我有一个围绕显示器的下列问题是否有为新开发的服务创建监视器的指南/最佳实践?

  • 如何确定显示器的阈值(可以说日志文件中的错误数/ 5分钟)?它应该是高峰流量的3%还是平均流量的3%?
  • 如果流量是以正弦波形式出现的话。我如何确保在非高峰时段我不会错过任何问题,同时确保在高峰时段我不会因误报而惊慌失措。

我知道这是一个含糊不清的问题,解决方案可能因服务而异。但我更关心应该遵循的最佳实践。

PS:我们已经有一个监测系统,我们只是试图用正确的阈值创建警报。

回答

0

我感觉到从上面的两个问题:

  1. 对于一个新的服务,我如何选择合适的 错误/延迟/可用性阈值?
  2. 对于获得 正弦波形流量的服务,如何调整我的 阈值以便在低/高流量情况下不错过错误?

那么,首先,理想的情况是延迟和可用性保证是您初始需求的一部分。如果您的服务不是为它设计的,那么很难将现有系统适应门槛或SLA。因此,希望您将这些数字作为要求(并纳入您的设计),或者您在设计系统时有一些目标。否则,你的服务不能比它在最好的情况下做的更好。所以选择一个。除非你有重新设计系统的选择,在这种情况下,回到原点。

对于各种流量模式的警报,取决于您可以使用哪些工具进行监控和警报。你提到贵公司已经有专门的监控系统;可能有解决方案允许您在创建错误和延迟阈值时定义规则。根据这些工具的复杂程度,这些规则甚至可以允许您定义相对于其他度量标准的阈值(例如,此服务支持的主要产品/网站的总流量)。如果这样的工具不可用,它变得很难,但你可以通过取决于百分比度量而不是绝对阈值来获得一些杠杆作用。像错误应该不超过.001%。如果您的监测系统不支持这样的计算,您可以探索出色的metrics library written by Coda Hale来确定服务本身的一些百分点。