据最新报告称,数据中心中断的总体频率和严重程度正在下降。平均每年发生10-20起引人注目的IT中断,造成严重的财务损失、业务和客户中断、声誉损失,或在极端情况下造成生命损失。
IT容量提高,停机时间减少
虽然停机问题比前几年有所增加,但增长速度低于IT容量扩张的速度,导致停机百分比有所下降。
在2023年数据中心调查中,55%的受访运营商表示过去三年内曾发生过停电事件。这一数字较2022年的60%和2021年的69%有所下降。
在这些中断中,2023年只有十分之一的中断被归类为严重或更严重。过去三年中41%的中断可以忽略不计。这比2022年提高了4个百分点,比2021年提高了10个百分点。
超过一半(54%)的受访者表示,严重停电造成的损失超过10万美元,16%的受访者声称最近一次停电造成的损失超过100万美元。
云计算、新冠肺炎和抑制自满情绪导致
报告称,各行业对自满情绪的容忍度降低,导致停电频率普遍下降。停电造成的高额声誉成本促使行业利益相关者优先考虑弹性。
组织正在投资基础设施冗余,企业、主机托管和云数据中心都在转向基于软件的弹性模型。之前的预期表明,多站点方法会破坏物理站点冗余策略。
迁移到公共云并不一定会导致停机次数减少。相反,这意味着第三方供应商被列为IT中断的罪魁祸首,从而减少了本地停机的总数。
新冠疫情的影响导致需求波动,进而给供应链带来压力,并扭曲了停电率。报告称,供应链中断导致资本项目停滞,并导致基础设施升级延迟。这暂时降低了经常导致停电的事故发生率。
使用基于分布式软件的弹性,可以减少随着时间的推移中断的发生,但也有可能增加新的风险。
电力中断是停电的主要原因
调查发现,52%的受访者认为电力是近期造成严重停电的主要原因。
八年来,第三方运营商、电信、云和互联网提供商占总体中断的67%。自2020年以来,这些运营商的中断率略有增加,但一直在持续增长,上升了5个百分点,到2023年,中断率将达到近十分之一,这反映了对云托管、SaaS和主机托管提供商的日益依赖。
由于各行业对连接和容量的需求不断增长,电信中断次数不断增加。移动网络的重要性意味着中断可能会产生巨大影响。
2022年和2023年金融行业中断次数大幅减少,这可能是因为在2021年之前发生一系列大规模、影响深远的中断之后,监管和监督更加严格。五分之四的受访者表示,如果管理、流程和配置更好,最近的严重停电本可以避免。
人为错误是造成绝大多数停机事故的原因
在过去25年中,人为错误直接或间接地造成了所有停机事件的三分之二到五分之四。造成重大人为错误相关中断的最常见原因是数据中心工作人员未能遵循程序或流程(48%)。其次是人员流程不正确(45%)和安装问题(23%)。