作者tiger0105 (tiger0105)
看板DataScience
标题关於在GCP上的training
时间Sun Sep 11 16:22:42 2022
各位前辈好
最近我在使用google cloud platform 建立vm来training yolo的模型
环境都已经设置完毕也可以跑,但遇到过了15min-20min job会被砍掉
有尝试用watch -n 1 nvidia-smi来监看也是会断线
有上网查可能是runtime limits(?
想请问各位前辈有遇到这样的问题吗
谢谢
Ps 硬体设置4-cores+15gb ram +k80
Cpu使用率对时间
https://i.imgur.com/83CDdqT.jpg
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.18.185 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1662884564.A.CA7.html
1F:推 roccqqck: 有个可能是gpu的ram不过 09/11 16:58
2F:→ roccqqck: 不够 09/11 16:58
3F:→ tiger0105: 感谢r大 不过我在跑的时候batch size 没有很大 在nvidi 09/11 17:23
4F:→ tiger0105: a-smi 的使用量大概在2000-3000mib 这张k80好像是~110 09/11 17:23
5F:→ tiger0105: 00mib 应该是够的(? 09/11 17:23
6F:→ chang1248w: 一楼的意思是可能某些步骤写的不对,就会留下垃圾张 09/12 00:09
7F:→ chang1248w: 量把g ram撑爆 09/12 00:09
8F:→ chang1248w: 模型或batch size设太大那刚开始训练的时候就会oom了 09/12 00:11
9F:→ tiger0105: 感谢C大 不过我是用AlexeyAB complie的版本 如果哪里写 09/12 16:17
10F:→ tiger0105: 错我也不知道怎麽改QQ 09/12 16:17
11F:→ tiger0105: *compile 09/12 16:18
12F:推 hsuchengmath: 纪录log啊,gcp应该有类似grafana的监控纪录吧? 09/12 20:05
13F:嘘 ruthertw: 楼上c在胡说八道,建议你抽V100跑看看,观察一下~ 09/30 15:46
14F:→ tiger0105: 大家好 问题已解决了 回文记录一下 因为是用後端运行no 10/13 09:08
15F:→ tiger0105: hup darknet….. > cout.txt & 後来改成 nohup darknet 10/13 09:08
16F:→ tiger0105: …… 2>&1 > cout.txt & 就不会被中断了 详细为什麽 10/13 09:08
17F:→ tiger0105: 目前还不知道… 因为我在自己的server测是没问题的 10/13 09:08