如何在生产中监控应用程序?日志,正常运行时间,等...(我宁愿一个外部应用程序,自由和开放源码)监控应用程序,正常运行时间,日志文件等
例如,我想
- 发出警报的能力,如果应用程序出现故障
- 如果CPU使用率发送警报>大于设置的阈
- 发送警报,如果内存使用量>比设定的阈值
- 发送警报的错误消息
- 必须是可配置的,也许一些错误如果发生X TI发送警报MES Y中的时间
如何在生产中监控应用程序?日志,正常运行时间,等...(我宁愿一个外部应用程序,自由和开放源码)监控应用程序,正常运行时间,日志文件等
例如,我想
Nagios是要走的路 - 一个学习曲线,但可定制,功能强大。同时还拥有服务器端的后台程序可以监控文件,磁盘空间等
我们在房子建一块监控软件的定制。
它监视我们的各种现场设备(和测试),由我们的Web应用程序产生的错误事件日志。我们所有的Web应用程序都会写入错误日志的任何例外。它还可以ping服务器和监视驱动器空间。
种种dev的机器,民意调查,监视我们定义的所有服务器上的服务器程序上的客户端应用程序。这个客户端应用程序在任务托盘中运行,当任何事情超出规范时弹出消息,以便开发人员立即看到它。我们还可以看到测试人员何时遇到错误,并且在测试人员甚至报告错误时通常会修复或至少进行修复。
服务器还从电子邮件到通讯组,以便我们可以看到重要的错误,而不是在工作,如果我们需要的。
它也有能力抑制预定义的异常/错误。
许多人正在转向数据导向解决方案。虽然大多数监控工具(nagios等)都提供静态图表,但它们更加孤岛,传统视图 - 今天的应用程序高度分布,事务跨越多个服务器,事情会变得疯狂。对于超越kpis和简单apis的更高级功能,您需要查看诸如Logscape或Splunk之类的机器数据解决方案。它们允许您创建灵活的仪表板等,可以交互式地钻取以提供非常丰富的根源分析。看看这个页面上的一些应用LogscapeApps
这实际上更像是一个服务器故障问题。这就是说:Nagios,Netcool等 – Joe 2009-06-18 23:52:32