作者PTTCEO (批踢踢首席執行長)
看板Soft_Job
標題[請益] 系統&服務監控
時間Sat Aug 3 22:09:34 2019
目前有需求是要監控系統資訊跟服務 並且做警報(Email通知)
請問各位大大 有沒有推薦的 系統跟服務監控 解決方案?
需求有以下幾點:
1.監控基本的系統資訊項目(CPU, Memory, Disk usage, Disk IO)
2.監控項目需要比較複雜的定義(例如CPU連續5分鐘平均 > 90)
3.監控服務是否還在運作(簡單的探測一下API)
4.監控某個RESTful API的狀態(例如系統授權是否即將到期)
5.監控的服務項目需要discover(打某個API取得目前有哪些instance)
6.符合警報後寄送email通知
7.Email通知需要支援群組設定(例如TechSupport群組, 客服群組, Sales群組)
8.通知規則需要支援複雜規則(一個period內的警報只寄送一次, 警報後特定條件內不再
發mail)
9.需要同時支援Windows跟Linux平台(系統資訊採集Windows透過WMI, Linux透過別的)
10.需要能夠單機執行(非一個master搭配agent做群集監控)
原本的想法是自己用熟悉的語言(Java or GO)刻一個簡單的程式
但發現要做到那些規則的定義跟configuration 包括Email通知規則
好像也不是這麼簡單的一個小program 也不太想要從輪子開始打造
Survey了好一番 監控的解決方案從Zabbix到其他一大堆 眼花撩亂的
但有些非免費 有些僅限Linux平台 有些功能太多 有些功能又缺了些
像是這個GOLang寫的Checkup
https://github.com/sourcegraph/checkup
差了系統資訊監控跟規則&警報定義 只能做到status check而已
目前找到的只有 Prometheus
https://prometheus.io/
應該都有符合需求 搭配AlertManager, WMI_exporter, Blackbox exporter
可惜還差了discover service以及監控某個API狀態的需求
可能得自己刻一個json exporter? 或者已經有現成的exporter呢?
不知道是否有其他的解決方案可以參考的 感謝各位~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.250.83.50 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1564841379.A.939.html
1F:→ MOONY135: 除了四跟五我好像都有現成方案 08/03 22:22
2F:→ wwfkane: zabbix、nagios 08/03 22:23
3F:推 jack0204: 自己寫資訊來接服務比較好吧 08/03 22:25
4F:→ MOONY135: Qt可以做桌面的 四五沒做過 不過應該也是可以測 08/03 22:27
5F:推 alihue: 普羅米修斯 08/03 23:07
6F:推 s890510: 普羅米修斯+grafa 08/03 23:08
7F:→ s890510: na 08/03 23:08
8F:推 e920528: Prometheus 08/03 23:22
9F:→ slash66: WhatsupGold 08/03 23:57
10F:推 ripple0129: 這年代除非你很熟其他方案之外,還有比Prometheus + g 08/04 02:00
11F:→ ripple0129: rafana更強大的選擇嗎,會來問基本上就是不用考慮了, 08/04 02:00
12F:→ ripple0129: 入門簡單又強大。 08/04 02:00
13F:推 PoloHuang: Zabbix 08/04 10:54
14F:推 Sieg2010: Zabbix 08/04 18:41
15F:推 SmallpTsai: Prometheus 08/05 21:56
16F:推 bamchisu: 推自己磕 08/06 12:45
17F:→ bamchisu: 加油 OS跟web server也做一下 08/06 12:46
18F:→ bamchisu: 還有程式語言跟編譯器 08/06 12:47