作者peter308 (pete)
看板Linux
标题[问题] cluster的cpu用量监测系统坏掉,替代?
时间Fri Oct 28 17:48:13 2016
学校的cluster system本来有一个Ganglia的cpu用量监测系统
但Ganglia最近坏掉无法即时监测远端电脑的cpu使用状况
cluster是使用"PBS"来派送任务
不知道有没有替代的指令 可以监测node01~node20,
哪一个node的任务还没跑完?
因为有的node可能硬体有些问题, 跑得比别人慢
我以前用Ganglia去监测很容易就知道是哪颗node特别慢
然後下次在script指定node的时候就会刻意跳过他
不知道除了Ganglia外 有哪些是不需要root也能执行的指令
让我知道哪个node执行特别慢 导致整个计算任务倍那个node给拖累
感谢~~~~~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.115.30.19
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Linux/M.1477648097.A.623.html
※ 编辑: peter308 (140.115.30.19), 10/28/2016 17:49:35
1F:→ kerwinhui: 用pdsh叫每个node回报你user的process,不过这很土 10/28 18:12
2F:→ kerwinhui: 还有你是PBS Pro, OpenPBS, Torque? 10/28 18:14
3F:→ kerwinhui: 如果你的 PBS 还在当然可以用 qstat … 10/28 18:15
4F:推 highfish: qstat无误 10/30 18:23
5F:→ peter308: 感谢1F解惑 喔 11/25 15:04