2020年似乎成为10年来最热的年份之一,欧洲今年夏季气温很快就达到去年夏季温度的最高水平,这给当地数据中心的运营敲响了警钟。高温不可避免地为数据中心带来了冷却方面的挑战,英国有记录以来最热的10年是从2002年开始的,数据中心冷却策略显然需要组织为夏季高温带来的任何问题做好准备。
鉴于冷却问题仍占数据中心计划外停机的近三分之一,因此,数据中心的风险规划必须考虑到温度升高的影响。不幸的是,大多数组织似乎仍然没有意识到数据中心的过热风险,这种风险会迅速使数据中心的运营处于危险之中。冷却问题目前已成为数据中心服务中断的第二大原因,对于组织而言,通过优化散热性能来降低这种风险至关重要。
识别预警信号
热失控问题在很短的时间就能产生,即使是经验丰富的数据中心运营团队也不会掉以轻心。冷却设备故障很容易升级为热失控情况,使全天候运行的数据中心面临停机风险。
调查发现,其中一个主要原因是现有的解决方案(如BMS)在及时发现热失控方面不是很有效。由于没有严重违反服务等级协议(SLA)或发生故障,冷却散热和气流问题通常不会过早地触发建筑管理系统(BMS)警报。但是一旦触发,则为时已晚,其结果是散热问题可能会迅速升级,在数据中心运营团队解决问题之前,将会产生影响整体性能的局部数据中心热点。
不要等待警报,需要采取更主动的方法
组织需要预防潜在热失控故障,通过人工智能和机器学习技术,现在可以采用与BMS系统并行工作的软件解决方案,以识别和管理来自数据中心的热失控风险。
借助这种实时热监控技术,可以跟踪冷却输出并提前识别出性能不佳的冷却系统,以便及时进行改进。在这里,数据中心机架和精密空调监控对于发现典型的冷却系统和BMS系统无法发现或隐藏的但易于修复的冷却和气流问题至关重要。
A公司开发了数据中心的关键监视系统,现在能够完成对关键基础设施的远程热失控风险预测分析。在最近的一个示例中,关键监视系统的软件和分析功能用于远程识别异常热失控行为,远程诊断问题并建议如何减轻热失控影响。所有这些都是在BMS系统发现问题之前完成的。
A公司发布的视频演示了基于预测性分析的方法如何为数据中心设置预防故障所需的预警功能。在这一示例中,由于精密空调发生故障,具有正常和稳定的冷却负荷曲线的数据中心的温度很快就变得不稳定。其时间轴如下:
- 软件分析解决方案利用精密空调中的EkkoAir冷却负荷传感器的性能数据来识别精密空调的异常行为。
- 软件分析解决方案可以识别单个冷却效果不佳的精密空调。
- 如果精密空调出现问题,软件分析解决方案提供了局部热点的预警。
- 软件分析解决方案还显示,其他精密空调虽然仍在运行,但无法消除热点。
- 软件分析解决方案建议关闭发生故障的精密空调,以消除再循环的热空气。一旦采取行动,热点问题立即得到解决。
- 调查并解决了精密空调问题,恢复正常的冷却运行,并通过软件分析解决方案进行了确认。
在这个过程中,现有的BMS在任何时候都不会产生警报,因为没有特定的组件故障或警报阈值被触发。这个例子显示了分析解决方案的早期风险检测分析功能,如何能够在最终失效之前识别和诊断性能不佳的冷却设备,从而消除潜在的热失控风险,并及时进行维修。它还说明了BMS系统缺乏警报生成,这意味着如果没有额外的预测分析,数据中心团队将不会意识到出现故障或查找出故障位置。通过对数据中心的整体观察,关键分析软件能够捕捉到细微的变化,例如设定值的变化、阀门卡住或格栅移动等,这些变化可能会导致更广泛的热失控问题。
热失控之前的预警
传统的BMS方法仅在系统出现故障或超出阈值时才生成警报,A公司的高粒度感测和关键实时算法相结合,可以在潜在设备出现故障之前先对其进行突出显示,以免影响数据中心服务的可用性。
只有从数据中心运营中消除100%的热失控风险,并为后续的冷却优化项目提供稳定的平台,数据中心管理人员才能真正实现热失控管理。