2

我有一个AWS CloudWatch Logs有趣的场景。我目前使用log4net并使用CloudWatch Logs代理将所有日志抽取到CloudWatch Logs中。我在CloudWatch中有一个度量标准,它基本上扫描[ERROR]条目,并且在发生开发通知时(阈值> = 1,时间段 - 1分钟),Alarm将它们传递给另一个服务。所有这一切都很好。AWS CloudWatch记录已处理和未处理异常的指标

现在我想要以不同的方式处理某些错误。例如,基于异常类型,我希望只在N分钟期间发生X次事件时才触发警报。所以在这种情况下,我会为这种情况创建一个度量标准,然后为其分配报警。问题是在这个问题的第一部分中解释的一般错误度量仍在跟踪每个单独的错误发生。所以现在我收到多个通知。每个错误一个,X个事件后一个。

我可以禁用一般错误指标,但我失去了跟踪未处理的异常的能力。我必须为每个可能的例外都制定一个指标。我错过了什么吗?处理这个问题的最好方法是什么?

+0

您可以详细说明如何使用log4net将日志推送到CloudWatch? –

+1

@ andrew.w.lane,我运行在EC2上运行的CloudWatch Logs Agent,并定期将日志从特定位置传输到CloudWatch。 –

回答

2

通常你可以通过创建一个函数做一些额外的处理会通知您之前处理这个问题。最简单的方法是将AWS Lambda函数订阅到未处理的错误警报的SNS主题。只有在您定义的任何条件通过后,退订您自己的主题,并让lambda功能通知您而不是SNS。

对于这种情况,这听起来像你想从您的个人指标抑制通知符合您汇总指标,而你的总指标处于报警状态未处理的错误。

伪代码:

  • 使用DescribeAlarms API来让你的总未处理的异常报警的状态。如果聚合报警处于“报警”状态,请继续。
  • 使用FilterLogEvents API来获取日志事件匹配:
    • 你的日志组
    • 你的日志流
    • FilterPattern:您的个人未处理的异常报警的度量滤波器
    • 开始时间:报警时间戳 - 周期
    • EndTime:闹钟时间戳
  • 使用GetLogEvents API来获取所有的日志事件匹配:
    • 你的日志组
    • 你的日志流
    • 开始时间:报警时间戳 - 周期
    • 结束时间:报警时间戳
  • 如果 '所有事件'计数和“过滤事件”计数匹配,并且聚合报警处于报警状态,不发送通知。否则,请使用SES或SNS API向您发送通知。

如果您想继续通过SNS进行通知,请不要重复使用该警报用于触发lambda的相同主题 - 为您的手机/短信通知单独创建一个。


我不知道这是否会比log4net的更容易,但如果你打算做这种处理后的你的日志可能是更好的异常直接发送到未处理SNS,后首先在lambda中进行处理,然后从你的lambda函数写出cloudwatch日志。这种更改将允许您通过SNS消息负载检查未处理的异常,并为您提供一些关于如何抑制重叠问题的额外控制。

+0

优秀的答案!谢谢! –