数据中心里包含有大量的IT设备,运转系统非常复杂,经常会出现这样那样的故障,就算一些著名的互联网巨头的数据中心也无法幸免。当然,数据中心可以通过部署很多备份技术,保证在出现故障时不至于影响运行的业务。数据中心故障产生的原因多种多样,绝大多数故障让人很容易理解,也可以通过采取一些补救措施,避免日后再出现,而有些数据中心故障产生的原因就非常怪异,让人二丈和尚摸不到头脑,故障的原因都有些无厘头,本文就来讲述几例怪异的数据中心故障。听到导致数据中心故障的这些原因,脑洞大开,只能感叹数据中心故障防不胜防啊!
一声巨响,数据中心应声倒下
就在9月,一家罗马尼亚银行数据中心业务中断了大约10个小时。数据中心在对消防系统进行测试时,打开了储存有“烟烙尽”的钢瓶,“烟烙尽”通过软管和喷嘴均匀地喷洒在狭小空间,从而达到灭火功效。当气体通过喷嘴释放时,压力过大,在释放“烟烙尽”,***发出了异常大的巨响,巨响超过了130分贝。这样巨响引起了振动,结果声音传递到存储在数据中心硬盘的外壳,服务器和数据存储设备都受到了影响,破坏了设备内部部件。这导致银行的信用卡交易、ATM业务活动、在线银行、电子邮件和银行的官方网站都瘫痪掉了。我们经常抱怨数据中心机房内的噪声太大,对人来说太吵了,对里面的设备又何尝不是,这些设备长期忍受各种设备运行产生噪声的影响。实际上,这些设备本身对噪声也是比较敏感,尤其是这种突然的巨响,很容易造成内部电子元器件的失效,所以有必要在数据中心增加一些消声设施,人长期处在嘈杂的环境中都会烦躁,电子设备也一样,提供一个相对安静的环境,有利于延长设备的使用寿命。
一辆SUV汽车引发的数据中心惨剧
2007年11月位于美国达拉斯的Rackspace公司数据中心遇到了一场无妄之灾,故障使其业务在数小时内陷入了瘫痪。一位大型四驱车司机,由于糖尿病病发而出现短暂昏迷,当时他正在开车,汽车一路向前直冲,并从丁字路口处撞向路边外侧的护堤。护提被撞击后,冲向空中,并落在了Rackspace公司的数据中心建筑物上,恰好砸在了供电装置上,一阵火光带闪电之后,数据中心电力供应中断了。此类极为罕见的外来因素所导致的停机事故,Rackspace公司为此次事故向客户支付了350万美元赔偿金,同时还增加了客户流失的风险。数据中心建筑物可抗击八级地震,却没有抵住一辆SUV汽车的误撞,确切地说还不是直接撞击。数据中心有很多的内外通道,这些管道也一定要保护好,具有一定的抗震、抗撞、防火能力,避免遇到这样的意外故障。
飓风吹停了数据中心发电机
2012年10月位于美国纽约曼哈顿地区的一处数据中心整套供电系统失效,原因是肆虐一时的飓风桑迪袭击了曼哈顿。在数据中心的十八层摆放有用于持续提供电力且不至于受到洪水影响的多台备用发电机,但风暴来袭时直接灌满了该数据中心建筑的地下室,并且摧毁了应急发电机的燃油泵送系统,遭到海水浸泡的整套电路立刻失去了作用,备用发电系统失效,而十八层电力采用的是市电,当飓风来袭造成整个曼哈顿市电系统故障,数据中心主备供电均故障,造成数据中心断电,所有应用系统无法运行。
太阳耀斑事件
在1989年太阳耀斑定向瞄准了加拿大魁北克水电电网,导致电网电压振荡,造成跳闸保护设备启用,几乎造成东北地区电力协调委员会(NPCC)和中大西洋区议会(MAAC)崩溃。Public Service Gas & Electric旗下新泽西州的一个核电站,造成发电机升压变压器的***性损坏,无法提供服务。虽然强烈的太阳耀斑/日冕物质抛射比较罕见,但不可否认它对于数据中心和电网是一个毁灭性的灾难。太阳耀斑是一种最剧烈的太阳活动,周期约为11年,通过高速度产生强磁场的过程中发出的带电粒子,如果击中地球,就会产生令人惊叹的现象,同时肆虐电力系统,如果击中数据中心的供电系统,数据中心一定吃不消了,这属于小概率事件,但一旦发生就是致命的。早在1859年,曾经发生过一次太阳耀斑故障,即所谓卡林顿事件,这次太阳耀斑让全球的电报系统都失控。太阳耀斑抛射定期发生,如果从这些太阳系列活动冲击数据中心磁场,数据中心可能会遇到大范围的电涌和停电。
巨响、撞击、飓风、太阳耀斑等都给数据中心带来了灾难,平时我们很少听到这类故障,主要是这些故障发生的概率极低,甚至让人觉得发生这些故障非常怪异。不过小概率并不等于不会发生。我们知道,按照发生概率来讲,飞机是非常安全的一种交通工具,但是每年还是会发生坠机事故,和每年数千万次的航班数量相比,发生概率不到万分之一,可一旦发生就是造成严重的人员伤亡,这让我们不得不对这些小概率事件非常谨慎。一旦这样的故障发生到某一个数据中心身上,也许这个数据中心就会从地球上消失。这些导致故障的根源很多时候还是可以通过优化加以避免,比如:对于撞击,我们可以对数据中心外围和建筑组楼顶进行加固,避免撞击给数据中心带来伤害;对于巨响,我们可以在数据中心机房外部增加消声装置,增加建筑物墙体厚度,这样不仅可以防止噪声进入数据中心机房内部,对设备造成伤害,还可以避免内部设备运行产生的噪声向外传递,以免扰民。所以,针对这些怪异的数据中心故障原因,通过采用一些常规的防护措施,就可以避免。