作者PttCraft (WOT NA 怒伯)
看板DataScience
标题Fw: [问题] 深度学习SSD寿命
时间Thu Jan 20 07:06:59 2022
※ [本文转录自 Storage_Zone 看板 #1XuTWnaZ ]
刚刚才发现有这个板
有一些问题转过来向先进们请教
作者: PttCraft (WOT NA 怒伯) 看板: Storage_Zone
标题: [问题] 深度学习SSD寿命
时间: Sat Jan 15 04:08:15 2022
最近下载了faceswap玩玩
看了一下说明
在训练机器创建模型的时候
session iteration动辄上百万次
目前电脑上有SSD也有传统硬碟
想请教一下有经验的前辈
这类程式的使用,对SSD寿命会不会有影响?
可以放心地把工作区域放在SSD上吗?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 174.103.163.88 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Storage_Zone/M.1642190897.A.923.html
1F:→ school4303 : 你的ram不做事吗 01/15 04:54
https://i.imgur.com/ikPF9kB.jpg
我现在工作区放在传统硬碟上
看他的atcitive time上上下下常常跳到高档
所以有此一问
RAM稳定维持在使用20GB/32GB (有一边开视窗跑其他游戏程式)
CPU(AMD 5 3600)使用率大约维持在60%上下
GUP(1070 8G)使用率约在70-80%,8G vram持续维持在满档
2F:→ ddity : 写入比较损耗寿命 01/15 07:05
3F:→ maniaque : 建议原PO跑一次建模前後各开启看一下smart 数值 01/15 08:17
4F:→ maniaque : 这样就知道累积的写入读取量 01/15 08:17
5F:推 giorno78 : 买更多ram 用 ramDisk 01/15 09:04
6F:推 fujisawa : 你找个监控软体例如HWInfo看一下大约的写入量 再去 01/15 09:26
7F:→ fujisawa : 对照一下SSD的TBW 就知道大略的寿命影响了 01/15 09:26
OK我试试看
8F:推 skywgu : 980 pro写掉40t,CDI只掉1%给你计算参考 01/15 10:03
9F:推 skywgu : 当然如果不在意机械硬碟那精美的延迟及噪音那就继 01/15 10:06
10F:→ skywgu : 续无脑用…毕竟企业碟都有250万mtbf … 01/15 10:06
11F:推 nissptt : 花大把时间计算,储存量也不大,该担心的不是SSD使 01/15 10:07
12F:→ nissptt : 用寿命,而是SSD的猝死可能性吧!! 01/15 10:07
13F:→ maniaque : raid0 ssd can solve problem 01/15 10:44
14F:→ maniaque : raid1 ssd can solve problem 01/15 10:44
15F:→ tomsawyer : raid can NOT solve problem, only ramdisk can 01/15 10:48
16F:→ maniaque : no , only Money can solve problem ....:D 01/15 10:50
17F:推 greg7575 : this is a book 01/15 10:58
18F:→ maniaque : that is a cat 01/15 12:10
19F:推 s860355 : meow 01/15 14:14
20F:推 ilanese : 买够多的RAM,装终保的RAM disk软体 01/15 16:35
21F:推 FreedomTrail: Weeeeeeee~~~ 01/15 21:41
22F:推 teddyissad : 记得回报喔 我也想看看吃多少 01/17 21:40
上次training没有成功结束就crash了
大约是275000 iteration
HWinfo64的纪录写入了大约400GB
磁碟空间没有显着的减少,所以大概是同一个档重复写入更新吧
这样算起来如果跑个一百万次 写入的量大概会接近2TB
我的SSD 寿命大约是600TBW
2TB说多不多说少不少
所以我就想说再回去用HDD把整套流程玩熟了再回来用SSD产出
但是很怪的是用HDD每隔一阵子就会卡住
task manager会看到HDD Active time 100%满档 可是传输速度很低
卡住的时候session iteration的数字就不跳了,好像暂停程序的感觉
卡一阵子之後才会又开始跑
但是跑了48小时都还没crash
不知道是什麽问题
23F:推 linlongchau : 棺材装死人不是装老人, SSD猝死非常可能 01/18 16:08
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: PttCraft (174.103.163.88 美国), 01/20/2022 07:06:59
24F:→ chang1248w: 怕的话就把模型和参数存在hdd里 01/20 13:28
25F:→ chang1248w: 要把sdd写死之前先考虑你gram和显卡频宽能不能做到 01/20 13:29
26F:→ yoyololicon: 怎麽会写这麽多...通常会写入不就存checkpoint而已 01/20 16:20
27F:→ yoyololicon: 还是faceswap的训练需要存gradient checkpoint? 01/20 16:20
28F:→ yoyololicon: 有没有CV比较熟的可以解释一下 01/20 16:20
29F:→ yoyololicon: 我猜是可能是存checkpoint的间隔step很少 01/20 16:21
30F:→ yoyololicon: 跑没几步就存一次 原po要不要看看有没有参数可以改 01/20 16:22
有可能
他预设250次就存一次
因为是预设我就没去动他
我来改改看再测测看
谢谢
31F:→ RumiManiac: iteration 通常是指计算更新一次参数,通常不会做完 01/22 12:02
32F:→ RumiManiac: 喔 我发现要讲的楼上讲完了 01/22 12:03
我一口气把250次的储存间隔拉到5000次
到目前450000次过去了
写入大约60GB
果然降了很多
※ 编辑: PttCraft (174.103.163.88 美国), 01/22/2022 12:38:22