作者gn02516700 (oopa也是小猪~)
看板DataScience
标题[问题] 关於Tensorflow的多gpu运算
时间Mon Apr 9 15:41:13 2018
作业系统: win7
类别:DL
使用工具:tensorflow-gpu 1.7.0, CUDA : 9.0, CuDnn : 7.0.5
问题内容:
各位版上大神好,不知道这个问题适不适合在这个版问,如果不适合会自删
小弟有在打Kaggle的2018 DSBL时有用到Mask RCNN做Instance segmentation遇到一个问题
就是Mask RCNN里面有一个config档案可以设定要用几个GPU去做运算
还有设定每一个GPU可以train几张图片(底下是该config档连结)
https://goo.gl/fB5mo6
而一个batch_size就是GPU数量*一张GPU要train几张图片,训练时的图片大小都是512*512
我之前只有单一片1070设定GPU_count = 1, IMAGE_PER_GPU = 2时可以执行
但训练到第三个阶段就会OOM,所以之後都是设定GPU_count = 1, IMAGE_PER_GPU = 1
然後训练一个epoch大约是1200秒左右。
而最近拿到了两片1080 ti就换上去也有SLI,想说两张1080 ti可以把设定调高
但是不管怎样都会OOM,就连设定GPU_count = 1, IMAGE_PER_GPU = 2在第一阶段就会OOM
只有在GPU_count = 1, IMAGE_PER_GPU = 1才可以执行不会OOM
而在上面的条件下训练一个epoch变成大约1000秒左右
也就是说两片1080 ti才比一片1070快200秒左右。
我有下载GPU-Z来看GPU的情况,发现到两张1080ti都是memory满载但是load才5%不到
有看到其他kaggler有两张1080ti的训练一个epoch大约是300秒
同样都是1080ti下我的执行时间却是他们的好几倍,甚至连batch_size都只能设定为1
想请问各位前辈们是不是我少设定什麽或是有什麽建议的,谢谢各位
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.128.240.196
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1523259676.A.148.html
1F:推 hl4: 可以调fit_generator的worker, use_multiprocessing, queue 04/09 16:47
2F:→ hl4: 最近刚好也在用这model玩这dataset... 04/09 16:48
我试试看调整这些参数看看 谢谢
3F:推 goldflower: 虽然应该不是这个问题 不过你并不需要SLI 04/09 17:21
4F:→ goldflower: 两片插上去就好 04/09 17:21
※ 编辑: gn02516700 (220.128.240.196), 04/10/2018 09:24:56
5F:推 hl4: stage2很狂啊,一堆全黑图还有教科书的手绘图片... 04/12 20:30
6F:→ gn02516700: 真的超扯 training data是testing data的1/5... 我sta 04/13 09:08
7F:→ gn02516700: ge1名次才top10% 目前还在re-train model中 不知道hl4 04/13 09:08
8F:→ gn02516700: 大大有没有小技巧提点一下 04/13 09:08
9F:推 hl4: 我也才玩这个几天而已,stage1最後名次到38x,还差几名到铜 04/13 17:42
10F:→ hl4: 话说现在还能re-train吗?我以为upload之後就不能动了QQ 04/13 17:44
12F:→ gn02516700: 最後结算成绩是Top4% 04/17 09:44
13F:推 hl4: 真是高手,我也才前三分之一而已,怎麽一堆垫背的不见了lol 04/17 13:18