作者SmallBeeWayn (喵喵叫的蜜蜂猫)
看板Cloud
标题Re: [转录]Re: [情报] IBM式转型 巨头纷纷跟进 云端
时间Fri Apr 29 20:26:16 2011
最基本能自称伺服器的主机,都是使用ECC Registed Ram
这一类型的记忆体传输时会多一个检查码,用来检查记忆体是否有错误
再好些的伺服器,会有一套自检查机制,当某条记忆体错误率超过某一个阀值时
提出警告及更换请求,这一类的伺服器也都能允许RAM的Hot Swap
更好些的伺服器则无所不能Hot Swap,也都配有各自的检验与警告机制
到了丛集&平行运算的时代,伺服器内部开始走倒车
Hot Swap的单位是以节点为单位,检验,容错与警告的基础单位也跟着上升
(单台伺服器有问题的话就卸下来离线检验,所以零件不需要热抽换)
至於Google,据说是以货柜为单位在"Hot Swap"的....
至於云端运算,其底层结构还是丛集系统
只是有全为一,一为全的特性
一堆实体主机 => 一个运算中心 => 多个运算单元
(丛集只有前者,VPS只有後者)
==================
至於有了这些检验机制会不会让整个服务崩溃?
当然会,前几天才有亚马逊EC2世界大当机事件
至於Gmail挂点已经到达[时有所闻]的程度...
最常见的几种连锁反应:
一批伺服器同时故障 => 超过容错限制 => 大规模服务跳脱
or
=> 负载转移到其他服务区 => 过载当机 => 转移 => 当更大
or
=> 严重的延时失败
简单来说就是骨牌效应...(Gmail应该是第一种,Amazon是2+3)
随着未来的云一个造的比一个大,再加上自动转移机制
骨牌倒起来会越来越严重,甚至跨越云端服务区与云端服务商
(ex.因为客户可能会有自动从失败的云服务转移到另外一个云服务的机制...)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.116.180.163
1F:推 Obb:技术根不上市场的成长 04/29 21:59
2F:推 wnick:其实这就是必然会发生的事情啊,所有设计都不是为了不出错 05/02 15:17
3F:→ wnick:而是为了减少错误的影响不是吗? 05/02 15:17