作者leicheong (睡魔)
看板Soft_Job
标题Re: [情报] IBM式转型 巨头纷纷跟进 云端
时间Fri Apr 29 19:07:44 2011
※ 引述《Obb (有趣的世界)》之铭言:
: 台湾一向走得比较慢半拍
: 云端的市场越来越集中罗
: http://www.jobbole.com/content.php/1101
: 发表於2011-04-28 07:30 AM
: 越来越多IT巨头进入集体转型期。日前,全球第二大PC厂商戴尔宣布,将投入10亿美
: 元建设数据中心,进一步开发云计算服务,标志着戴尔从传统PC厂商向解决方案供应商(
: IT服务)转型。
: [Deleted]
其实看到大家在讨论「云」, 有一个问题好像很少人讨论的.
就是因为硬体做成的软体执行错误问题.
在维护伺服器的时期大概发生过一、两次系统稳定性的问题, 是和
某条记忆体有问题有关的. 这在一般单台伺服器很容易检查, 只要
选一个晚上跑一下memtest就可以了吧. 可是在「云端」呢? 不见得
每间公司都有规定花时间跑相关的检查程式, 再安装平台的操作系统
吧. 大多数都是看系统能跑起来就会「收货」了.
如果有记忆体问题而不影响系统的话 (例如6条记忆体只有一条有问题
的场合, 因为系统效能的问题kernel区域一般会在连续的位址. 也就是
说这些系统只要开机时刚好没载入到有问题的记忆体, 重开机前一般
也不会再碰到, 只会影响新执行的应用程式), 你的程式怀疑可能是
硬件问题而导致出错的话, 有甚麽方法可以nail down问题呢?
事情还会再复杂一点. 因为「云端」的性质, 你无法确认出问题的
instance是在那台伺服器执行的. 也许你再跑一次, 程式在另一台
伺服器执行你就完全看不到问题, 但你无法知道下一次再执行时
会不会又在有问题的记忆体执行. 这样就算你用某些方法能够
锁定是记忆体问题, 你也无法向供应商证明. 他们也该基於公司
政策拒绝承认是他们的问题吧.
再考虑一些其他情况, 例如空调系统因事故停止运转等. (虽然
数据中心一般会有两组以上的可独立维持运行的空调机组, 但
常看TDWTF的人对"有可能失效的系统都有可能
一起失效"这说法
应该不会有意见吧. 真的失效的时候一般都是按既定程序尽快
恢复就是结束了. 不过失效期间做成的高温是有可能损害硬体的.
我目前没有看到任何一间「云端」服务供应商有指引安排在出现
空调事故并持续若干时间後对整个房间的伺服器安排进行检查的.
一些普通的应用程式当掉重跑也许没问题. 可是如果是商用的,
特别是金融类的呢?
--
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.92.4.195
※ 编辑: leicheong 来自: 61.92.4.195 (04/29 19:08)
1F:推 Obb: 相当有道理.. 04/29 19:49
2F:→ Obb:我就遇过几次web hosting 挂掉的状况.. 04/29 19:50
3F:→ Obb:就算是godaddy全世界第一大的网域商, DNS照样给我出问题.. 04/29 19:51
4F:推 ggg12345:x86cpu有温测电路,bios开机有记忆体测试,有的DRAM仍内建 04/29 20:07
5F:→ ggg12345:有parity check.硬体是否完全正确还得靠一再发生的错检出 04/29 20:12
6F:→ francej:所以Amazon EC2负责的头头本身就是fault tolerance专家 04/29 20:47
7F:→ francej:基本上这个有点是在卖reputation. 你常当机,客户就流失了 04/29 20:50
8F:推 ggg12345:云端就是委外靠专业专职的管设备也要scalable,不必要的删 04/29 21:06
9F:→ leicheong:这无关专业与否. 即使是IXM, 没写进指引的事还是没人会 04/29 22:18
10F:→ leicheong:去做的啦. 重开机有风险, 但平行运算平台的伺服器不 04/29 22:19
11F:→ leicheong:重开机以脱离机组方式启动的话, 无法进行硬体测试. 04/29 22:21
12F:→ leicheong:小薯们不可能自发这样做然後自行承担责任的... 04/29 22:22
13F:→ leicheong:另外按照惯例, 在有load balancing的地方, 即使有一个 04/29 22:24
14F:→ leicheong:instance挂了, 只要其他使用者在其他伺服器的登入使用 04/29 22:25
15F:→ leicheong:没问题, 那段时间也不会算入downtime, 也就对公司名声 04/29 22:26
16F:→ leicheong:没多大影响... 04/29 22:26
17F:→ leicheong:一般云伺服器机组都是数十部以上的伺服器组成, 如果 04/29 22:28
18F:→ leicheong:用料不是太差以致多部伺服器同时有问题的话, 你的使用者 04/29 22:28
19F:→ leicheong:会连续碰到问题的机会会很少, 多半就算进软体bug了... 04/29 22:29
20F:推 lunastorm:所以才会有CROSS DATACENTER的HA出现 04/29 23:06
21F:推 zanyking:关於记忆体失败的问题,大概得靠对Log做分析才有可能了。 04/29 23:16
22F:→ zanyking:不然就是VM或OS层对这件事情有保护,发生时会Fatal err 04/29 23:18
23F:→ zanyking:之後节点重起时,再对这件事情发出通知。 04/29 23:19
24F:推 ggg12345:硬体DRAM的老招就是ECC parity check,PC是外部电路不易做 04/29 23:33
25F:→ ggg12345:到就被拆除了,但现在是做在chip内.通常ram坏了就乱跑,一 04/29 23:36
26F:→ ggg12345:发生就会有memory protection err,若OS不坏就会产生log. 04/29 23:39
27F:→ rewqasdf:简单的问题还要选一个晚上跑test? 用楼上的老招就打死你 05/02 08:44