盘点:近年数据中心十大灾难事件

服务器 数据中心
IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。

对于数据中心来说,保持业务连续性是首要目标,然而庞大的数据中心面临众多潜在风险,小概率事件也可能带来灾难性后果——机房火灾、服务器长时间宕机、声誉受损,据不完全统计,仅仅2020年以来有十几桩类似大故障发生。

IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。

数据中心灾难预防封面图

数据中心火灾前/后对比

事件一:韩国SK公司数据中心火灾

韩国数据中心火灾

韩国数据中心火灾

2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。

起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。

调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

事件二:湖南电信荷花园大厦起火

2022年9月16日,位于湖南省长沙市芙蓉区的湖南电信大楼发生火灾,数十层楼体燃烧剧烈,消防赶到后将火势扑灭,撤离及时,无人员伤亡。经初步侦察,现场为大厦外立面起火。为防止发生危险,大楼部分设备断电,据中国电信官方及用户反映,部分用户手机语音和短信功能受到影响,截止当晚12时仍未恢复。

长沙电信大火-央视

长沙电信大楼起火-图源央视新闻

长沙电信大楼于2000年建成,建筑地上42层地下2层。大楼内含荷花园电信机房,是湖南最大的主干线接入点之一,此前资料显示,机房具备25G光纤直CHINANET骨干网,总机架数量约1000个。

事发前招标信息显示,该大厦消防设备超期运行,火灾报警系统等存在较大安全隐患。

事件三:谷歌数据中心电气爆炸

当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。

媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。

谷歌证实了这场意外为电力事故,但未披露具体原因。

事件四:英国高温致多个数据中心宕机

2022年夏天,欧洲经历极端高温,当地时间7月16日英国气温达到42℃,位于伦敦的谷歌云和甲骨文数据中心均因气温过高出现故障,导致系统宕机。

甲骨文报告,数据中心的两台制冷系统出现故障,导致数据中心内部气温越来越高,一些系统自动采取保护措施关闭作业,使得一些用户的数据使用出现延迟问题。谷歌同样称数据中心内的冷却系统出现故障,导致了该区域的部分容量故障,导致VM(虚拟机)终止和一小部分客户的机器损耗,同时谷歌关闭了机房内的一些机器,以防进一步损坏。

谷歌表示只有“一小部分用户”受到了影响。

事件五:网易游戏机房大规模服务器宕机

2021年11月3日,多款网易游戏出现无法登录、断连情况。

据《绝对演绎》等游戏官博表示原因系机房过热导致服务器宕机“机房传来报警,温度过高。部分服务器过热宕机。空调重新开机也没有解决问题……”。

事发后约3小时左右,网易游戏各服务器已恢复正常登陆,网易方面并未就此次故障做统一回复。

事件六:Telstra英国数据中心火灾

2021年8月27日,澳洲电信Telstra位于英国首都伦敦的托管数据中心发生火灾并引起宕机。火灾造成一半大楼断电,消防人员表示,虽然只烧毁了三层供应间的一小部分区域,但由于大火使支撑母线的断路器跳闸,工程师们不得不通过发电机恢复电力。

据分析,这次火灾事故很有可能是由于UPS故障引起,事故击穿了温度保障、消防灭火及ups预测性维护、ups预防性维护等多重保障,最终导致火灾。

事件七:汛情致河南多机房断电

2021年7月,河南遭遇极端暴雨天气,多个数据中心受到汛情影响,机房停止服务:

河南移动机房汛情

河南移动机房公告

河南移动枢纽机房断电,无法正常办理移动业务;海腾郑州BGP机房、华中郑州市BGP机房等数据中心因所在区域市电中断超过1、2个小时,机房由柴发带载,附近油站因道路积水暂时无法供油到机房,在出现电力中断前,考虑到用户数据安全,临时中断服务。

西部数码郑州区域、晋江文学城、河南省产权交易中心用户方发布通知,表明服务受机房原因中断。

当时IDC圈收到的照片显示,有位于河南的数据中心出现机房进水情况。

事件八:OVH数据中心火灾

当地时间2021年3月10日,欧洲​​云计算​​巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。

OVH火灾现场

OVH火灾现场

起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。

尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。

事件九:WebNX美国犹他州数据中心起火

2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心着火,导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。

事件十:微软Azure美东数据中心服务中断6小时

2020年3月3日,微软Azure位于美国东部的数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。

微软随后披露,一个冷却系统故障是导致这次停机的原因,发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。

.......

当然,2020年以来,数据中心发生的故障大事远不止以上这些。

例如2020年8月华为云香港机房制冷设备出现异常,导致服务器挂了3个小时;2022年10月,苏州国科数据中心因备用冷塔着火致楼顶着火,但或是影响范围较小,或是如苏州国科数据中心般机房和业务未受影响,因此并未列入。

这里仅盘点故障严重和造成较大影响的事件,供大家了解,以作前车之鉴。

责任编辑:庞桂玉 来源: 中国IDC圈
相关推荐

2010-11-02 13:01:26

2010-01-01 20:32:31

互联网

2012-12-26 09:30:30

2015-07-02 15:24:54

数据中心人为灾难

2009-04-24 00:07:43

2015-12-30 10:23:49

数据中心2016发展预测

2011-04-26 11:17:44

数据中心

2010-01-05 10:28:35

2019-10-24 07:50:52

勒索病毒勒索软件网络安全

2020-01-09 07:37:21

数据中心运营商

2011-09-27 10:26:18

云计算数据中心

2019-11-17 16:09:45

勒索病毒网络攻击网络安全

2018-12-26 07:06:52

数据中心软件定义数据中心公有云

2011-12-28 09:37:03

数据中心数据分析云计算

2011-12-21 13:58:26

数据中心服务器

2023-12-21 10:11:21

数据中心电力冷却

2015-03-25 19:00:22

2011-12-28 09:13:30

2013-05-14 16:50:14

2022-04-25 14:06:28

数据分析人工智能机器学习
点赞
收藏

51CTO技术栈公众号