作者PTTCEO (批踢踢首席执行长)
看板Soft_Job
标题[请益] 系统&服务监控
时间Sat Aug 3 22:09:34 2019
目前有需求是要监控系统资讯跟服务 并且做警报(Email通知)
请问各位大大 有没有推荐的 系统跟服务监控 解决方案?
需求有以下几点:
1.监控基本的系统资讯项目(CPU, Memory, Disk usage, Disk IO)
2.监控项目需要比较复杂的定义(例如CPU连续5分钟平均 > 90)
3.监控服务是否还在运作(简单的探测一下API)
4.监控某个RESTful API的状态(例如系统授权是否即将到期)
5.监控的服务项目需要discover(打某个API取得目前有哪些instance)
6.符合警报後寄送email通知
7.Email通知需要支援群组设定(例如TechSupport群组, 客服群组, Sales群组)
8.通知规则需要支援复杂规则(一个period内的警报只寄送一次, 警报後特定条件内不再
发mail)
9.需要同时支援Windows跟Linux平台(系统资讯采集Windows透过WMI, Linux透过别的)
10.需要能够单机执行(非一个master搭配agent做群集监控)
原本的想法是自己用熟悉的语言(Java or GO)刻一个简单的程式
但发现要做到那些规则的定义跟configuration 包括Email通知规则
好像也不是这麽简单的一个小program 也不太想要从轮子开始打造
Survey了好一番 监控的解决方案从Zabbix到其他一大堆 眼花撩乱的
但有些非免费 有些仅限Linux平台 有些功能太多 有些功能又缺了些
像是这个GOLang写的Checkup
https://github.com/sourcegraph/checkup
差了系统资讯监控跟规则&警报定义 只能做到status check而已
目前找到的只有 Prometheus
https://prometheus.io/
应该都有符合需求 搭配AlertManager, WMI_exporter, Blackbox exporter
可惜还差了discover service以及监控某个API状态的需求
可能得自己刻一个json exporter? 或者已经有现成的exporter呢?
不知道是否有其他的解决方案可以参考的 感谢各位~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.250.83.50 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1564841379.A.939.html
1F:→ MOONY135: 除了四跟五我好像都有现成方案 08/03 22:22
2F:→ wwfkane: zabbix、nagios 08/03 22:23
3F:推 jack0204: 自己写资讯来接服务比较好吧 08/03 22:25
4F:→ MOONY135: Qt可以做桌面的 四五没做过 不过应该也是可以测 08/03 22:27
5F:推 alihue: 普罗米修斯 08/03 23:07
6F:推 s890510: 普罗米修斯+grafa 08/03 23:08
7F:→ s890510: na 08/03 23:08
8F:推 e920528: Prometheus 08/03 23:22
9F:→ slash66: WhatsupGold 08/03 23:57
10F:推 ripple0129: 这年代除非你很熟其他方案之外,还有比Prometheus + g 08/04 02:00
11F:→ ripple0129: rafana更强大的选择吗,会来问基本上就是不用考虑了, 08/04 02:00
12F:→ ripple0129: 入门简单又强大。 08/04 02:00
13F:推 PoloHuang: Zabbix 08/04 10:54
14F:推 Sieg2010: Zabbix 08/04 18:41
15F:推 SmallpTsai: Prometheus 08/05 21:56
16F:推 bamchisu: 推自己磕 08/06 12:45
17F:→ bamchisu: 加油 OS跟web server也做一下 08/06 12:46
18F:→ bamchisu: 还有程式语言跟编译器 08/06 12:47