作者Obb (有趣的世界)
看板Cloud
标题[转录]Re: [情报] IBM式转型 巨头纷纷跟进 云端
时间Fri Apr 29 19:49:32 2011
※ [本文转录自 Soft_Job 看板 #1Dkfm3cN ]
作者: leicheong (睡魔) 看板: Soft_Job
标题: Re: [情报] IBM式转型 巨头纷纷跟进 云端
时间: Fri Apr 29 19:07:44 2011
※ 引述《Obb (有趣的世界)》之铭言:
: 台湾一向走得比较慢半拍
: 云端的市场越来越集中罗
: http://www.jobbole.com/content.php/1101
: 发表於2011-04-28 07:30 AM
: 越来越多IT巨头进入集体转型期。日前,全球第二大PC厂商戴尔宣布,将投入10亿美
: 元建设数据中心,进一步开发云计算服务,标志着戴尔从传统PC厂商向解决方案供应商(
: IT服务)转型。
: [Deleted]
其实看到大家在讨论「云」, 有一个问题好像很少人讨论的.
就是因为硬体做成的软体执行错误问题.
在维护伺服器的时期大概发生过一、两次系统稳定性的问题, 是和
某条记忆体有问题有关的. 这在一般单台伺服器很容易检查, 只要
选一个晚上跑一下memtest就可以了吧. 可是在「云端」呢? 不见得
每间公司都有规定花时间跑相关的检查程式, 再安装平台的操作系统
吧. 大多数都是看系统能跑起来就会「收货」了.
如果有记忆体问题而不影响系统的话 (例如6条记忆体只有一条有问题
的场合, 因为系统效能的问题kernel区域一般会在连续的位址. 也就是
说这些系统只要开机时刚好没载入到有问题的记忆体, 重开机前一般
也不会再碰到, 只会影响新执行的应用程式), 你的程式怀疑可能是
硬件问题而导致出错的话, 有甚麽方法可以nail down问题呢?
事情还会再复杂一点. 因为「云端」的性质, 你无法确认出问题的
instance是在那台伺服器执行的. 也许你再跑一次, 程式在另一台
伺服器执行你就完全看不到问题, 但你无法知道下一次再执行时
会不会又在有问题的记忆体执行. 这样就算你用某些方法能够
锁定是记忆体问题, 你也无法向供应商证明. 他们也该基於公司
政策拒绝承认是他们的问题吧.
再考虑一些其他情况, 例如空调系统因事故停止运转等. (虽然
数据中心一般会有两组以上的可独立维持运行的空调机组, 但
常看TDWTF的人对"有可能失效的系统都有可能
一起失效"这说法
应该不会有意见吧. 真的失效的时候一般都是按既定程序尽快
恢复就是结束了. 不过失效期间做成的高温是有可能损害硬体的.
我目前没有看到任何一间「云端」服务供应商有指引安排在出现
空调事故并持续若干时间後对整个房间的伺服器安排进行检查的.
一些普通的应用程式当掉重跑也许没问题. 可是如果是商用的,
特别是金融类的呢?
--
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.92.4.195
※ 编辑: leicheong 来自: 61.92.4.195 (04/29 19:08)
1F:推 Obb: 相当有道理.. 04/29 19:49
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.137.203.163
2F:推 gmoz:现在的货柜是怎样处里的? 04/29 19:54