由于冠状病毒疫情持续蔓延。一些数据中心运营商表示这导致其服务中断,政府官员表示正在密切关注数据中心行业的发展。
发生的疫情迫使数据中心运营商投入更多的资金,以使其IT系统更加强大。疫情带来的困难变得如此巨大,以至于有些业务和服务失败。
英国一位政府官员在日前召开的一次行业会议上表示,不可靠的数据中心基础设施对经济和社会带来的风险变得如此之大,以至于英国政府正在考虑通过法律使其变得更具弹性。在疫情发生之后,英国政府首次将物理数据基础设施视为一个独特的行业,在此之前,它被认为是对其他关键行业的支持服务。
然而,数据中心运营商将数据服务弹性不足归咎于软件供应商,并表示这对数据中心行业带来不良影响,尽管他们自己的物理基础设施正变得更加可靠。
数据中心运营商的一名高管在会议上建议,数据中心行业已经在采取进一步措施,以提高其抵御数据中心故障和灾难的能力,这可能会提高运营成本,但肯定需要更多的投资。
根据数据中心标准机构Uptime Institute公司的统计,作为一直以弹性著称并对其成就感到自豪的行业,数据中心行业致力于拥有更多的安全保障和故障切换系统,以确保无论发生什么灾难,保证数据服务在平均99.982%的时间内保持正常运行。Uptime Institute是一家数据中心故障预防措施制定和认证标准的公司。
该公司执行董事Andy Lawrenc表示,Uptime Institute制定的可靠性衡量标准是根据其“Tier III”标准设计的数据中心,这是大多数数据中心运营商渴望的,即使他们实际上没有达到这一标准。有人呼吁数据服务变得与电力一样可靠。
3%的数据中心运营商报告数据中心宕机中断
根据Uptime Institute发布的一项调查表明,3%的数据中心运营商承认,由于疫情使他们的工作无法抵御真正的灾难,但其业务和服务完全中断,他们尚不知道其后果有多严重,或者对行业的整体可靠性有何影响。数据中心工程师兼顾问Amber Williamson表示,但这些故障代表了在防范疫情的行业表现。
Williamson在会议上介绍了Uptime Institute的调查结果。她表示,这些数据中心运营商报告的数据中心中断可能是异常情况。她说:“Tier III数据中心应该能够进行任何维护,而不会影响IT和服务。它们根本不会出现任何中断。”
她表示,中断可能是由于工作人员的严重短缺造成的,因为这些员工由于疫情不得不在家工作。她表示,数据中心需要处理故障时可能没有备件。
数据中心基础设施弹性方面的新投资
根据Uptime Institute发布的调查报告,三分之二的数据中心运营商计划提高其数据中心设施的弹性以应对疫情。这意味着构建更多的冗余系统,以便在紧急情况下接管。
Williamson说:“我们将看到弹性增强,这意味着我们将增加资本支出。”一家云计算厂商已经要求其数据中心提供商今后必须为每个基础数据中心组件(如冷却和电源)配备两个冗余系统。
这份研究报告的作者之一、Uptime Institute的Lawrence表示,人员短缺意味着需要更大的弹性。他说:“如果数据中心继续进行运营,那么在现场工作的员工人数就会减少,那么显然必须为即使组件发生故障也要继续运营进行规划。其容错度应该达到Tier IV。”
根据Uptime Institute去年对1100家数据中心运营商进行的调查,数据中心行业在疫情发生之前已经遭受了关键技能短缺的情况。数据中心行业的报告指出,人们越来越相信数据服务需要100%的可靠性,以使其像电力一样具有保障,因为无人驾驶汽车之类的创新正变得至关重要。Lawrence表示,业界用户已经对Tier IV数据中心的可靠性表现出了更大的兴趣,Uptime Institute认为它能够提供99.995%的正常运行时间。Lawrence指出,大多数数据中心运营商并没有寻求对其可靠性的正式认证。
英国政府要求的数据中心可靠性
英国的文化、媒体和体育部(DCMS)在疫情期间负责保持政府部门数据基础设施的运行,一位政府官员在网络研讨会上表示,该部门一直试图确定其数据中心是否确实具有足够的弹性,以确保在运行医院和经济重要数据服务时不会中断。
英国的文化、媒体和体育部(DCMS)开放政府和开放数据负责人Sam Roberts在会议上说:“我们非常热衷于了解数据中心行业的性质以及如何确保政策制定的未来适应性。这可能是诸如技能、获得材料以及内置结构弹性之类的东西。冠状病毒疫情使人们关注物理数据基础设施的重要性。我们将其视为实现更广泛的经济和社会成果的重要基础设施,这一点非常重要。我们认为,评估数据中心行业的弹性是明智的。这是英国政府首次全面审视数据中心行业,也是英国政府看待数据中心行业的方式的重大转变。”
Roberts是英国的文化、媒体和体育部(DCMS)数据基础设施弹性团队的代表,该团队于今年3月成立,旨在确保重要数据服务在疫情期间继续运行。
他说:“我们正在评估政府部门是否可以发挥更大的作用。但是我们意识到,弹性和安全性已经成为数据基础设施领域的竞争驱动力。”他带领的弹性团队将致力于解决数据中心行业的弹性和安全性问题。
他说,英国政府正在考虑是否将物理数据基础设施指定为关键国家基础设施(CNI)的正式组成部分。到目前为止,数据中心在向其他关键国家基础设施(CNI)部门(例如卫生部门)提供数据时,一直被认为是关键国家基础设施(CNI)。现在,由于英国政府将数据中心基础设施视为一个独特的部门,这个问题变得非常重要。数据中心运营商表示为此带来更严格的监管。
增强数据中心基础设施的弹性
数据中心运营商Virtus公司首席执行官Neil Cresswell在会议上说,数据中心基础设施的弹性正在增强。
他说:“也许在软件层面的弹性还不足够。疫情危机迫使Virtus公司的数据中心只有70%至80%的员工在管理和运营。而企业管理层的选择生死攸关,没有人强迫员工去数据中心现场工作,而他们由于病毒传染而生病或死亡是不值得的。”
Virtus公司一直在尽其所能提高弹性,并加速使用远程管理系统,因此员工不需要在现场维护,而是采用自动化来执行操作和维修。
Cresswell表示,但是严格的出行限制以及供应链瓶颈使Virtus公司一些数据中心的建设推迟了三个月。而在疫情期间,对数据服务的需求几乎翻了一番。
全球最大的数据中心运营商之一世邦魏理仕公司数据中心解决方案执行总监Andrew Jay在会上表示,数据中心基础设施的弹性实际上一直在下降,,但这是由于软件方面的问题。
他说:“如果人们认为他们需要超越Tier III标准,那将涉及成本和效率。我很想了解更多有关这种增强弹性的信息。”
Uptime Institute在其2019年年度调查报告中表示,数据中心中断事件的三分之二是由软件和网络问题引起的,这表明它们可能超出了数据中心运营商的控制范围。另外三分之一是由数据中心本身的电源故障引起的。
调查报告指出,“中断仍然是代价高昂和普遍的。去年有三分之一的数据中心出现过停机。五分之一的数据中心的停机损失严重,造成了经济损失、声誉受损、违反监管规定以及安全问题。此外,十分之一的停机事件造成了100万美元的损失。
而在这个调查中,将近250家数据中心运营商计划更多地开展远程管理,他们具有在疫情期间的运营经验。 而四分之三的受访者表示计划使用自动化技术。