Re: [情报] IBM式转型巨头纷纷跟进云端

时间Fri Apr 29 19:07:44 2011

※ 引述《Obb (有趣的世界)》之铭言： : 台湾一向走得比较慢半拍 : 云端的市场越来越集中罗 : http://www.jobbole.com/content.php/1101 : 发表於2011-04-28 07:30 AM : 　　越来越多IT巨头进入集体转型期。日前，全球第二大PC厂商戴尔宣布，将投入10亿美 : 元建设数据中心，进一步开发云计算服务，标志着戴尔从传统PC厂商向解决方案供应商（ : IT服务）转型。 : [Deleted] 其实看到大家在讨论「云」, 有一个问题好像很少人讨论的. 就是因为硬体做成的软体执行错误问题. 在维护伺服器的时期大概发生过一、两次系统稳定性的问题, 是和某条记忆体有问题有关的. 这在一般单台伺服器很容易检查, 只要选一个晚上跑一下memtest就可以了吧. 可是在「云端」呢? 不见得每间公司都有规定花时间跑相关的检查程式, 再安装平台的操作系统吧. 大多数都是看系统能跑起来就会「收货」了. 如果有记忆体问题而不影响系统的话 (例如6条记忆体只有一条有问题的场合, 因为系统效能的问题kernel区域一般会在连续的位址. 也就是说这些系统只要开机时刚好没载入到有问题的记忆体, 重开机前一般也不会再碰到, 只会影响新执行的应用程式), 你的程式怀疑可能是硬件问题而导致出错的话, 有甚麽方法可以nail down问题呢? 事情还会再复杂一点. 因为「云端」的性质, 你无法确认出问题的 instance是在那台伺服器执行的. 也许你再跑一次, 程式在另一台伺服器执行你就完全看不到问题, 但你无法知道下一次再执行时会不会又在有问题的记忆体执行. 这样就算你用某些方法能够锁定是记忆体问题, 你也无法向供应商证明. 他们也该基於公司政策拒绝承认是他们的问题吧. 再考虑一些其他情况, 例如空调系统因事故停止运转等. (虽然数据中心一般会有两组以上的可独立维持运行的空调机组, 但常看TDWTF的人对"有可能失效的系统都有可能一起失效"这说法应该不会有意见吧. 真的失效的时候一般都是按既定程序尽快恢复就是结束了. 不过失效期间做成的高温是有可能损害硬体的. 我目前没有看到任何一间「云端」服务供应商有指引安排在出现空调事故并持续若干时间後对整个房间的伺服器安排进行检查的. 一些普通的应用程式当掉重跑也许没问题. 可是如果是商用的, 特别是金融类的呢? -- --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 61.92.4.195 ※ 编辑: leicheong 来自: 61.92.4.195 (04/29 19:08)

1^F：推 Obb: 相当有道理.. 04/29 19:49

2^F：→ Obb:我就遇过几次web hosting 挂掉的状况.. 04/29 19:50

3^F：→ Obb:就算是godaddy全世界第一大的网域商, DNS照样给我出问题.. 04/29 19:51

4^F：推 ggg12345:x86cpu有温测电路,bios开机有记忆体测试,有的DRAM仍内建 04/29 20:07

5^F：→ ggg12345:有parity check.硬体是否完全正确还得靠一再发生的错检出 04/29 20:12

6^F：→ francej:所以Amazon EC2负责的头头本身就是fault tolerance专家 04/29 20:47

7^F：→ francej:基本上这个有点是在卖reputation. 你常当机,客户就流失了 04/29 20:50

8^F：推 ggg12345:云端就是委外靠专业专职的管设备也要scalable,不必要的删 04/29 21:06

9^F：→ leicheong:这无关专业与否. 即使是IXM, 没写进指引的事还是没人会 04/29 22:18

10^F：→ leicheong:去做的啦. 重开机有风险, 但平行运算平台的伺服器不 04/29 22:19

11^F：→ leicheong:重开机以脱离机组方式启动的话, 无法进行硬体测试. 04/29 22:21

12^F：→ leicheong:小薯们不可能自发这样做然後自行承担责任的... 04/29 22:22

13^F：→ leicheong:另外按照惯例, 在有load balancing的地方, 即使有一个 04/29 22:24

14^F：→ leicheong:instance挂了, 只要其他使用者在其他伺服器的登入使用 04/29 22:25

15^F：→ leicheong:没问题, 那段时间也不会算入downtime, 也就对公司名声 04/29 22:26

16^F：→ leicheong:没多大影响... 04/29 22:26

17^F：→ leicheong:一般云伺服器机组都是数十部以上的伺服器组成, 如果 04/29 22:28

18^F：→ leicheong:用料不是太差以致多部伺服器同时有问题的话, 你的使用者 04/29 22:28

19^F：→ leicheong:会连续碰到问题的机会会很少, 多半就算进软体bug了... 04/29 22:29

20^F：推 lunastorm:所以才会有CROSS DATACENTER的HA出现 04/29 23:06

21^F：推 zanyking:关於记忆体失败的问题，大概得靠对Log做分析才有可能了。 04/29 23:16

22^F：→ zanyking:不然就是VM或OS层对这件事情有保护，发生时会Fatal err 04/29 23:18

23^F：→ zanyking:之後节点重起时，再对这件事情发出通知。 04/29 23:19

24^F：推 ggg12345:硬体DRAM的老招就是ECC parity check,PC是外部电路不易做 04/29 23:33

25^F：→ ggg12345:到就被拆除了,但现在是做在chip内.通常ram坏了就乱跑,一 04/29 23:36

26^F：→ ggg12345:发生就会有memory protection err,若OS不坏就会产生log. 04/29 23:39

27^F：→ rewqasdf:简单的问题还要选一个晚上跑test? 用楼上的老招就打死你 05/02 08:44

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Soft_Job 板

Re: [情报] IBM式转型巨头纷纷跟进云端

热门看板

赞助商连结