作者kaltu (ka)
看板Storage_Zone
标题[请益] SSD部份档案经过强读取之後变成0KB
时间Thu Dec 27 19:51:18 2018
我买的硬碟是冠元的TP6500 512GB
http://i.imgur.com/DqJgmcq.jpg
一切使用完全正常
但是只要我拿来做神经网路的训练
A, B dataset 加起来总共约一百万张小於100KB的图片
在数百个epoch(轮)的读取之後
第一次是五百出头 第二次是七百出头
程式就会因为资料IO error停下来
查了之後发现有两三张图片变成0KB 导致读取失败
由於当下就排除问题了,所以没有截到图
请问大家认为这会是什麽问题呢?
-----
Sent from JPTT on my Asus ASUS_Z01KDA.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.73.192.12
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Storage_Zone/M.1545911481.A.3FB.html
1F:→ maniaque : "爆了" 就这麽简单......12/27 19:57
2F:→ maniaque : 你有加散热片或散热风扇帮助散热吗???12/27 19:57
3F:→ maniaque : 建议你试装这些散热元件(尤其主动的风扇),再跑看看12/27 19:58
都没有,没有给他任何被动或主动散热
如果确定是过热就去找个的风扇给他好了
4F:推 jeff40108 : 你这种用法必死的,因为nand区块有读写次数限制12/27 21:41
5F:推 jeff40108 : 你这样操没有给他搬移做wear leveling的机会12/27 21:42
6F:→ jeff40108 : 建议改用RAM disk12/27 21:44
我是一次写入然後数百次读取
而且一个档案一个小时内不会被读到第二次
不确定这样的wear有没有太大
7F:推 winiel559 : NAND有读的次数限制吗 都读取的读到死去不太合理= =12/27 22:15
我查到的是read disturb
在约莫数百到数千次读写之後
NAND block内的资料会跑掉,但是cell不会死
很像是我的状况
硬碟没死,被读取的资料坏了
8F:→ ilanese : RAM disk,终保的ram……12/27 22:23
是推荐用RamDisk取代吗
※ 编辑: kaltu (42.73.29.6), 12/27/2018 22:54:31
9F:推 XXXXHAY : DDR3现在好便宜的,弄个二手Xeon插满128G也不用多少12/27 23:35
我的CPU是9700K QQ
10F:→ XXXXHAY : 钱效能还远大於SATA12/27 23:35
11F:→ XXXXHAY : 啊歹势原来你买的是PCIe的12/27 23:35
12F:→ XXXXHAY : 啊不然买PCIe的RAM转卡也可以,但是不知道现在还有12/27 23:36
13F:→ XXXXHAY : 没有12/27 23:36
这种卡很难买吧
14F:→ lagya : 阿就它没写read disturb 的演算法 当然读多次就爆了12/28 02:54
这颗的主控晶片没有解这个issue吗?
我看wiki是很罕见的状况才会没写read disturb
※ 编辑: kaltu (42.76.28.143), 12/28/2018 07:57:34
15F:推 linlongchau : 数千次读取都没差,512G SSD没有那麽烂,有留意温度 12/28 09:12
16F:→ linlongchau : S.M.A.R.T图...你这片还是新的,冠元的品质有那麽烂? 12/28 09:13
17F:→ linlongchau : 读的次数那麽多,Cache开大一些会有用 12/28 09:13
18F:推 MAXX228 : 换900(5)P 试试 12/28 10:52
19F:→ maniaque : 我个人是认为先改善散热(直接土炮电风扇吹SSD)12/28 11:45
20F:→ maniaque : 若有改善,那表示问题在此,你再实质强化散热12/28 11:46
21F:→ maniaque : 买散热片,甚至锁上小风扇12/28 11:46
我目前也怀疑是过热
因为训练神经网路的时候GPU会满载
搭配的GPU并非公版涡轮扇型号
所以造成机箱高热,可能会影响到SSD
想请教一下这种机箱内高温的状况散热方案配置的诀窍
22F:推 ilanese : 8G算1000块,你大量买128GB,16000元就行了,终保RA12/28 13:03
23F:→ ilanese : M disk。12/28 13:03
24F:→ ilanese : 软体推荐primo ramisk。12/28 13:04
25F:推 ilanese : 这种大概是4支32GB比较好,12/28 13:08
26F:→ ilanese : 更正:primo ramdisk12/28 13:09
27F:推 photoless : 8g 1000??????12/28 13:33
28F:→ sma1033 : 再过一阵真的有可能,目前看到新品8G最低到120012/28 13:45
29F:推 photoless : 正常大牌至少2400 少说160012/28 13:51
30F:→ ilanese : 又是农历年前宰羊期,短时间内也降不下来了。12/28 13:51
31F:→ ilanese : 虚拟货币暴跌,要便宜的话,去二手市场捡看看矿机拔12/28 13:53
32F:→ ilanese : 下来的杀肉货。12/28 13:53
33F:→ ilanese : 原PO的MB应该也没有那麽多的记忆体模组插槽可用,大12/28 13:54
34F:→ ilanese : 概只能选32GB四支这种组合了,这样子就贵了。12/28 13:54
35F:→ ilanese : 12/28 13:55
36F:→ ilanese : RAM的市场没那麽好了,虚拟货币暴跌,挖矿的话,连12/28 13:55
37F:→ ilanese : 电费可能都不够,新矿机没人组,旧矿机又丢到市场卖12/28 13:56
38F:→ ilanese : ,供给远大於需求的话,势必就是跌价了,只是亚洲市12/28 13:56
39F:→ ilanese : 场就是农历年前不跌,农历年後才跌。12/28 13:57
40F:推 TaiwanisChin: 试试看别家的SSD,说不定是别的问题12/28 17:00
※ 编辑: kaltu (42.76.28.143), 12/28/2018 18:01:42