作者mcps5601 (寿司的豆皮)
看板DataScience
标题[问题] 突然无法使用GPU
时间Sat Jul 21 10:39:53 2018
作业系统: Linux Ubuntu 16.04
问题类别: 深度学习用的GPU
使用工具: Python, TensorFlow,Keras
问题内容:
板上的各位先进、前辈们大家好
小弟的实验室主机最近有时会程式执行到一半的时候抓不到显卡
输入nvidia-smi指令会整个卡死 (Ctrl+C也无法停止)
如果下reboot指令会需要非常久的时间(将近1小时)才能重开完成
已爬过网路上的文章,还是不知道原因是什麽
所以想问一下大家有没有遇过类似的情况...
或是我该往哪个方向去解决问题?
先谢谢大家了,请帮帮被困扰已久的我QQ
PS: 硬体资讯如下
显卡: GTX 1080ti*2 (技嘉版本)
主机板: 微星X299
CPU: i7-7740X
电源供应器: 850W (全汉皇钛极)
记忆体: 64GB DDR4-2400MHz
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.191.194.69
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1532140796.A.2D8.html
1F:推 sma1033: 哇!微星的主机板耶 07/21 11:14
2F:→ tsoahans: 有没有可能是电供不够力 07/21 18:06
我也有这样猜想...
3F:→ atrix: 除了楼上的电力问题,还可以试记忆体降频看看,或是加AVR 07/21 18:15
谢谢a大,我来试试再观察看看
4F:→ atrix: 或是查硬碟有没坏轨 07/21 18:16
硬碟应该是没有坏轨
5F:推 germun: 850W跑不动2张吧 07/21 18:17
我本来以为850W满够的QQ
6F:→ germun: 电供插线的方式也要注意有没有插错 07/21 18:18
谢谢g大,插线的部分应该是没问题
7F:→ atrix: 执行一段时间才当机的话,不太像电力不足 07/21 20:59
确实是偶发性的...但没有跑程式的时候几乎不会有这个情况
8F:推 b24333666: 驱动有重装过? 07/21 22:06
有重装过,目前是396.24.10版
※ 编辑: mcps5601 (42.191.194.69), 07/22/2018 11:09:50
9F:推 b24333666: 拿一张正常的显示卡试试看 07/22 15:43
10F:→ atrix: 不晓得不同晶片的驱动会不会不一样,我有三台的驱动是384.1 07/22 18:34
11F:→ atrix: 11,应该是CUDA自带的 07/22 18:34
12F:→ atrix: CUDA8. 0 07/22 18:34