三年十起故障灾难 数据中心如何预防应对?

服务器 数据中心
服务器高负荷下工作产生的热量随之增大,机房升温迅速,留给运维的应急处理时间被压缩。

数据中心​的存在,就是为了保障计算的安全与可连续性。然而,仅仅最近三年中,数据中心发生了十余件故障乃至灾难。详见:​《盘点:近年数据中心十大灾难事件》

数据中心系统庞杂,运维安全本就不易,近年来的极端气候、技术发展等因素,也为数据中心高可靠性带来了新挑战,我们应该如何预防与应对?

数据中心故障“老面孔”

经过盘点近年来灾难事件不难发现,电力系统、制冷系统、人工操作一直是导致数据中心故障的最常见因素。

线路老化

线路老化引发火灾,常见于建成多年的数据中心,韩国SK数据中心火灾就是由于线路起火导致的。

线路故障的主要原因是旧+热:

旧:电线外包绝缘层,正常使用寿命在10~20年,线路老化后,可能造成破损,绝缘性能下降,遇到液体或湿度过大时容易引起短路、着火。

热:根据焦耳定律,负载电流经过电线时产生热量。数据中心24小时运转,电线长期高负荷运行情况下,高温加速线路绝缘老化,以至绝缘被击穿。

UPS/电池故障

Telstra英国数据中心火灾、北京邮电大学数据中心火灾,即由电池故障导致。

数据中心电池/UPS故障的主要原因有过度循环放电、电池接头密封不严、链接松动、高温、高浮/低浮充电压等。铅酸电池一般寿命为5年,锂电池寿命在10年左右,随着电池使用年限的增加,性能降低,故障率也随之提升。如果维护、检查疏漏,可能未及时更换快到年限的电池。

又因为数据中心电池数量庞大,串联及并联使用,一旦一节电池故障后起火、爆炸,会蔓延造成大的灾难事故。锂电池一旦起火爆炸的危险性高于铅酸电池,灭火难度也更大。例如2021年北京市丰台区西红门储能电站起火爆炸事故,就是因为电池间内磷酸铁锂电池发生内短路故障,引发电池热故障起火和扩散,进而遇电气火花发生爆炸。

近年来锂电池应用中受到主要疑虑即来自于此。

制冷故障

无论是压缩机、安全阀抑或停水导致的制冷故障、制冷效率低,均会引发机房温度升高,影响设备性能,如果不能及时处理,机房温度持续上升,或因过热宕机,服务中断、硬件损坏、数据丢失。

人工误操作

日常巡检是数据中心的重要保障手段,但操作不当也是造成故障的重要原因。此前多起数据中心起火就是由于人员操作不当产生电火花,引燃易燃材料导致的,也有数据中心在维护保养时未严格执行工作手册,导致电池短路等故障。

微信图片_20221201152736

导致数据中心业务中断因素占比统计

来源:Uptime Institute2021年全球数据中心调查报告

研究机构Uptime发布的《2021年全球数据中心调查报告》也说明,导致数据中心业务中断的因素中,电力、网络、制冷占前三位。

越发展越“危险”   数据中心那些新挑战

近年来极端气候、疫情、技术发展等,也为数据中心的高可靠性带来了新的挑战。忽视极小概率导致被淹、宕机的多起前车之鉴在前,从业人员面对这些新变数,必须提高警惕性。笔者根据此前访问与了解,试总结如下:

新挑战一:数据中心规模愈大,运维管理愈难。

数据中心建设呈现规模化、集约化趋势,近年来新建项目少见小型、中型数据中心,多为大型、超大型数据中心园区,分多期建设完成。

而数据中心体系庞大管理复杂,暖通系统、电力系统、弱电系统、消防系统……一个1000机柜的数据中心就拥有测点10万+,规模增加的同时,巡检耗时、运维故障排查难度成倍提升,容易造成疏漏和盲点,进而引发安全事故。

新挑战二:高功率高密度,应急时间被压缩。

正如Azure美东数据中心的灾难事件,当数据中心冷却出现故障,机房温度不断升高,服务器出现异常,如果运维团队不能及时排障处理,高温导致将服务器宕机、设备损坏。

近年来,数据中心的服务器单机柜功率密度不断提高,服务器高负荷下工作产生的热量随之增大,机房升温迅速,留给运维的应急处理时间被压缩。有从业者曾表示“现在5分钟机房温度可以升高3~5℃,20分钟内温度将升高约15~20℃,如果说曾经留给运维团队定位、处理故障的应急时间有30分钟以上,现在已经压缩到10分钟甚至更短。”

新挑战三:极端气候频发

近年来全球极端天气频发,干旱、暴雨、高温,很多地区遭遇未有过的反常天气,给数据中心可靠性带来新挑战。

摄图网_501643936_wx_城市暴雨街道洪水内涝(企业商用)

暴雨导致城市汛情

例如英国属温带海洋性气候,最高温不会超过32℃,但今年却达到惊人的42℃,“极端高温天气远超数据中心运营者设计之初的预期”。同样,我国北方很多地区年均降雨量不高,因此没有完善的汛情应对预案,部分数据中心连抽水泵等物资都储备不足,也没有考虑到积水时供油运输问题。今年,四川等地遭遇罕见大旱,水电来水偏枯,城市开启限电措施,部的数据中心只能长时间依靠柴发运转。

新挑战四:疫情变量

当所在地出现疫情感染时,或区域封控时,怎样保证数据中心正常运转,同时保护好数据中心工作人员的健康安全?从业务连续性到客户紧急需求的处理,从运维团队配置、人员衣食住行,到内部防疫防感染、进出限制措施,都需要数据中心形成完善制度,避免紧急情况下措手不及,引发宕机或大面积感染事件。

从选址设计到买保险   数据中心安全面面重

说过这么多灾难案例与故障因素,需要强调的是,灾难预防和应对绝不仅仅是数据中心的事。数据中心的高可靠性,需要多方共同参与构建,正如木桶效应,任何一处短板都会造成疏漏。

选址规划设计关注危险因素

自然资源是数据中心选址规划时的重要考虑因素,如常年低温、气候干燥、水资源丰富、水电充沛,这些都会给数据中心运营带来优势。

然而,全球极端天气频发,各区域气候也逐渐发生改变。正如今夏伦敦某数据中心负责人所说,“数据中心在设计之初就考虑到忍耐高温的问题,但是目前的极端高温天气已经远远超出了许多数据中心运营者在设计之初的预期。”

因此,数据中心的选址设计必须要考虑更多气候变量,常年凉爽地区可能面临高温,干旱地区或许遭遇暴雨,水电充沛多路市电接入,电力也绝非保障无虞,极端天气还可能使当地少见的山火、滑坡等意外概率大大提升。

曾经不可能出现的气候问题,需要被数据中心设计方和运营方加入考虑,避免出现河南汛情和伦敦高温导致的宕机,等“超出设计预期”的情况。

基础设施共同构建安全

各系统设备厂商可以通过多方面行动助力数据中心安全,降低或预防灾难可能性。

首先,不断提升设备性能。例如制冷系统厂商美的楼宇科技推出的多款制冷解决方案,针对当前数据中心散热高、空调能耗高等痛点,有效提升制冷效率。

其次,应用新技术、研发新产品,补齐数据中心故障短板,提高整体安全性。例如克莱沃在​​IDCC​​大会上所介绍小母线和智能PDU在数据中心的应用,产品更耐高温、避免电涌侵袭,减少电线变形和电路损坏,提高供配电系统稳定性。

锰酸锂LMO针刺测试

第三,在应用新技术推出新产品前,做好新技术的安全保障,开展严格的可靠性测试验证。例如华为数字能源对SmartLi智能锂电产品在实验室进行热插拔测试并联不均流度,在TUV机构进行针刺实验,分别测试三元锂、锰酸锂和磷酸铁锂电芯针刺后的反应,观察是否会热失控起火,验证其电池产品的稳定性。

第四,从设备层面实现智能化、​​数字化​​,推出智能管理系统,实现设备可视化运行、故障预测、定位,降低运维难度与压力,进而减少疏漏。例如中兴通讯的iDCIM数据中心智能管理系统,支持百万级测点接入,多维可视,支持机器人巡检,可以实现数据中心基础设施全生命周期管理。

自主研发 提高可靠性

最了解数据中心的,还是数据中心。

除了使用各类厂商的设备和管理系统,也有走在行业前列的数据中心,将运营经验积累沉淀成体系,根据需求自己研发管理系统、软硬件,用于提高可靠性。

例如万国数据基于运营八十几座数据中心的需求,构建了三层的全球数据中心运营架构,还在IDCC2021上推出了第一代Smart DC,其中智能运营方面,基于运营实践及自研软硬件协同,形成X-BP系列产品,打造更懂数据中心的机电系统,实现全栈智能管理、最优化TCO。

灾备与两地三中心

“不要把鸡蛋放在一个篮子里”,这句名言是容灾备份、两地三中心的最好广告词。由于政策及合规性要求,金融用户尤其关注容灾备份。

IDC圈获悉,自去年起多个银行、金融机构启动了灾备数据中心的建设计划,其中和林格尔等“东数西算”节点是热门选址地。中国银行、中国农业银行、中国建设银行等多个金融机构已经在和林格尔布局建设数据中心。

买保险

数据中心承载愈来愈重要,直接关系社会民生,一旦发生灾难,对数据中心及用户都将带来巨大的金钱和形象损失,保险就成了最后的保障。

IDC圈向保险行业人士了解到,数据中心保险可以分为三类:

第一类财产损失保险

属于传统保险,财产险保险公司都可以提供该服务,只是估值方式不同,如何评估资产和损失。这类保险偏向于物理损失,一般以火灾、地震等自然灾害等情况比较多,基本上数据中心都有购买这类保险。

第二类,偏损失类的网络安全保险

一般财产保险公司或责任险保险公司专门有这类产品。有别于财产保险偏向于物理的损失,网络安全保险偏向于受到外部攻击,如DOS、安全攻击等造成了设备和软硬件损失,发生的维修维护费用。

第三类,偏责任类的网络安全或者数据安全保险

这类属于新型保险,保的是数据中心企业自身的责任,实际是给客户的——如果数据中心遭遇攻击等,客户数据被泄露、丢失、损坏、篡改以及软硬件遭受损害,有明确佐证下会获得赔付。网络安全保险主险往往还会有营业中断损失保险、隐私泄露责任保险、网络勒索保险等附加险。

数据中心保险

某保险公司针对数据中心的保险方案

因此,数据中心保险的构成相对于大家熟知的人身保险、财产保险更为复杂,企业可以找提供财产险和责任险的保险公司咨询,也可以请笔者咨询到的大童保险这类专业保险中介提供服务,订制符合需求的保险产品与承包范围。

如果数据中心购买了保险产品,一旦出现故障、灾难事件,例如着火造成客户服务中断,是否赔付具体要看承包的保险产品责任属性,是服务中断责任、是数据丢失责任、还是信息泄露的责任,是否在保险范围内。总而言之,保险的购买、责任认定和估值都比较复杂。如大家有兴趣详细了解,IDC圈将邀请专业人士深入采访,撰文介绍。

智者千虑,必有一失。当前,数据中心灾难预防应对正面临诸多新挑战,而数据中心的高可靠性需要多方共同参与构建。

责任编辑:庞桂玉 来源: 中国IDC圈
相关推荐

2010-01-05 10:14:19

2009年数据中心领域

2022-11-09 18:36:52

数据中心灾难预防可持续

2021-08-04 12:28:11

数据中心能源绿色挑战

2018-03-08 16:53:21

数据中心数据海啸

2017-10-20 22:09:43

数据中心冷却机房空调

2012-02-27 09:39:11

数据中心大数据

2020-11-27 11:41:25

数据中心

2015-12-07 10:51:05

数据中心雾霾

2015-08-17 10:36:44

数据中心运行故障

2009-09-27 15:59:50

数据中心供电故障

2021-08-26 23:01:41

人工智能气候大数据

2011-07-07 11:04:07

数据中心灾难恢复

2018-03-13 07:11:45

数据中心自主管理数据中心IT

2015-11-24 10:16:01

数据中心极寒天气

2020-04-15 10:15:35

数据中心PUE能源

2022-11-24 18:29:33

数据中心

2010-10-14 10:25:41

数据中心灾难

2020-11-02 10:48:13

数据中心IT技术

2021-12-08 13:58:59

数据中心数据中心架构数据中心网络

2022-10-19 15:00:16

点赞
收藏

51CTO技术栈公众号