我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。
冗余,这两个字贯穿了数据中心每一个子系统的设计过程,是高频关键词。
得益于2N或N+m的完美冗余,数据中心像一个冷冰冰的钢铁巨人一般,变得日益健壮。
地震可以有,只要烈度不超8,能扛;断电、停水,即便两个一起来,两三天内,能扛;台风,有预案,能扛;雷暴,有防雷接地系统呢,能扛……
至于设备级的故障,那更是数据中心设计中“并行维护”的起步要求,甚至允许多台设备故障神奇地同时发生。
数据中心是具备自愈能力的
病毒进入人体,就是考验人体自愈能力的时候。自愈能力不够,又没有特效药帮助,只好选择送人头;自愈能力强,病毒不知不觉就被干掉了。
那么,既然有这么强大的自愈能力,数据中心还怕什么呢?
当然怕。最怕那种不在应急预案覆盖范围内的、起源于外部的不可抗力事件。
五年前发生在天津的812大爆炸,以及眼下的新冠病毒之战,就属于这类事件。
关于812事件详情这里就不再赘述了,有兴趣的同学可以通过《没有观众的裸奔》重温一下痛苦记忆。天津数据中心离爆炸核心不到1.5公里,受到极大破坏。
爆炸声落,数据中心内即发现8处故障点,其中包括冷水机组停机、爆管、地下室水浸这样的严重故障。
只要应急预案能覆盖的场景,处理起来就可以有条不紊。80分钟后,8处故障全部处理完毕,各系统运行平稳。当然,光有预案还不够,就像我们在事后反复强调的,应急预案和平时不折不扣的演习,关键时候才是救命稻草。
第一时间处理好故障,是数据中心的本分,也是其自愈能力的展示舞台。但第一天还远不是高潮,随后发生的一系列事情,才让这一天天的值守,变得特别漫长。
绝大多数情况下,数据中心依靠自身的自愈能力来消除风险,是不需要外部帮助的。但到了“大敌当前大局为重”的关口,一旦事件升级,当政府不得不上门来“帮助”你时,问题就来了。
清场之后,偌大的天津数据中心没有一个人影;我们经常挂在口边的“无人值守”,陡然一下成为了现实。
此情此景,如何自救?很显然,有一个完整、精确、随时随地可登入、允许关键运行参数远程修正的数据中心监管控系统,此时显得多么的重要……此处省略666字。关于当年天津是怎么做的,可参阅上述文章《没有观众的裸奔》。
天津数据中心虽然扛过了812的考验,但也暴露出若干问题。尤其是无人值守的全面管控能力。
我们常说,教训比经验更值得珍视。经此一役,腾讯在数据中心自动化系统方面加大投入,集中优势兵力很快推出了“腾讯智维”监管控平台,并开源共享给全行业。详情请了解《助力产业互联网升级 腾讯推出数据中心智慧运维全栈解决方案》。
因此,在年前新冠病毒还没有真正爆发的时候,我们在全国每一个数据中心,已经提前做好了无人值守的准备。极端情况下政府干预清场后,可能会有一段不短的时间需要启动“无人预案”。
类似的极端场景,可能还包括化工厂泄漏、监狱暴动等只能靠想象预判的不可抗力事件。
这一年的春节,每个中国人都过得不凡。
丑陋的半兽人“新冠”携病毒大军兵临城下,全国的数据中心和中土所有部落一起,都在打一场保卫战。
信息报备、100%跟踪、无死角消杀、内外物理隔离、一级无差别严控……只要能想到的,只要病毒有可乘之机的,一定可以做到极致的严防死守。
但也有些地方可能被我们忽视了。比如数据中心值守人员的心理状态。我们说数据中心的自救,除了无人值守能力,其实也包括心理干预。
尤其是时间越拖越长,保卫战变成巷战,甚至进一步变成持久战的情况下。外面谣言满天飞,里面的人这一天天的,就会变得焦虑、敏感、消沉。
当然,“咱们运维团队心理素质过硬着呢,请全国人民放心”。这是两回事。“扛”是决心,可对数据中心来说,主观上要保证团队每一个人的健康完好,客观上更要保障数据中心的安全运行;毕竟,人在焦躁状态下,很容易出现误操作……
至于怎么做心理干预,我党我军有很多行之有效的办法,就不在这里班门弄斧了。该政委上场了。
战疫之下的数据中心自救,自然是各有各的做法,各自各精彩。腾讯数据中心友情提醒各位同行:做好无人值守技术准备;关注值守人员心理健康。