社区编辑申请
注册/登录
数据中心那点事儿之末端资源分配
服务器 数据中心
机房的建设是以规划与设计为标准,而在机房投产运行后,实际供电、负载变化等因素常常出现,受其影响,设计指标并不一定能完全实现,因而机房实际运行中会出现许多难以预测的风险,对安全运营产生各种威胁。

1.综述

在数据中心规划设计时,往往以“规划机柜数量”ד机架平均功率”考虑机房的用电需求及热负荷。但实际使用中,IT设备需遵循网络、业务等方面的原则进行部署,并非均匀分布,且设备的功耗在不同时段也存在波动,使得数据中心的实际负荷与设计指标存在偏差,从而造成供电过载或机房过热的风险。因而运维人员需要监控IT设备实际运行参数,分析机房运行状态,对可能的隐患及时排除。同时,在实际运维中,合理分配机房电力、机架,可以有效避免机房资源的浪费,提高资源利用率,降低PUE。本文通过介绍某机房案例,简要介绍数据中心规划与实际运维的差异,并通过变更解决机房风险的过程。

2.情况介绍

如图1所示,某数据中心A机房模块规划安装服务器机架61个,单机架平均功率4.4kW,机房总功率268.4kW。机房IT设备采用1000kVA UPS系统(单台500kVA 2+2配置)供电,分配给A机房模块的功耗为300kW。机房设有3台冷冻水型精密空调,2用1备,单台显冷量160kW,不考虑人员及围护结构散热,并考虑20%的制冷量冗余,该模块的制冷量阈值约为266.67kW(160kWx2/1.2)。

图1 某机房机架布局平面图

该机房投产时,实际部署了6个网络机柜和55个服务器机柜,机柜内IT设备及功耗如表2-1所示,机房内实际部署网络设备134台,服务器设备550台,合计684台,估算总功耗267.6kW。机房列头柜输入断路器、输出微型断路器、PDU容量均满足设备需求。

表1 机柜内IT设备部署及功耗估算

实际运行过程中,运维人员通过监控机房列头柜总用电量,统计了该机房IT负载在24小时内的波动情况,如图2-2所示。可以看到,机房实际负载24小时内大部分时间在255-265kW之间,符合机房供电、制冷容量范围内,但负载在每日凌晨1点开始提升,2点左右达到峰值时较平均功率提升了约15kW,已超出了机房制冷量阈值约7kW,之后开始逐步下降并在3点左右恢复平稳,超出冷量阈值时间约1小时。

图2 24小时机房负载功率曲线

该曲线说明,IT设备在业务高发时段的功耗超出了此前典型功率的预估值,机房整体功耗也超出了设计值。虽然由于冗余设计未造成配电系统过载,但也少许占用了其他机房模块的配电容量,且若长时间运行在高功耗状态,可能造成机房实际温度的上升、或因不同机柜之间功耗的差异产生局部热点,进而出现运行风险。同时,电力资源与制冷资源的不匹配也会导致机房资源浪费。

3.解决方案

由于该数据中心已建成投产,且未提前预留基础设施扩容条件,因此机房供电、制冷阈值已无法调整,只能将部分IT设备迁移至其他机房模块。根据图2数据,机房功耗峰值为274.5kW,超出理论冷量阈值约7.5kW。经实际测算,服务器设备峰值功率约为462W,应迁移至少16台服务器设备才能确保机房总体负载满足要求。

由于IT设备在该机房内以TOR组的形式部署,为不浪费网络端口、实现综合布线的一致性,设备迁移需以TOR组为单位进行。机房内最小的TOR组为双服务器机柜配置,组内共包含4台网络设备及20台服务器设备,功耗合计约9.8kW,迁移一个TOR组即能够满足需要。由于在机房规划中,B机房机架建设晚于A机房,设备迁移前,B机房设备上架率及实际功耗较低,目前有5台空机柜,设备设计冷量267kW,预留电量300kW,实际设备功耗为190kW,具备迁移条件。

经综合评估,确定将该机房内04-13、04-14机柜(如图2-1红框所示),共24台IT设备迁移至相邻的、设备上架率和负载率均较低的B机房。A、B机房由同一UPS系统供电,迁移后两机房负载均在供电、制冷阈值范围内。迁移后,机房峰值功耗预计将降低9.8kW。

4.设备迁移

机房设备迁移,首先要完成相应准备工作,如:提前在B机房目标机柜内进行设备落位规划、提前布线并完成机柜PDU测试、提前屏蔽监控、提前通知相关人员做好业务交接等。

在准备工作完成后,相关运维人员关停待迁移设备所承载的应用及系统,将IT设备关机,拔除相关线缆,将设备下架并搬迁至B机房目标机柜上架。设备安装完毕后,连接电源线,设备启机,观察待设备正常启动运行后,连接光纤、铜缆,检查配置并完成系统等各项验证,待设备完全正常工作后,解除告警屏蔽,更新设备部署信息。

此外,进行设备迁移还应做好风险预案,设备故障、配置错误等因素均可能导致失败,为保证回退所需环境,光纤拔下时注意保护,避免弯折,并盖上光纤帽。如设备迁移后无法恢复,则回退至A机房原位置上架加电,并恢复综合布线连线。

5.效果验证

在设备迁移变更完成后,机房负载功率曲线如图3所示:

图3 迁移后24小时机房负载功率曲线

由上图可知,变更后机房峰值功率下降约10kW,全天均处于冷量阈值以内。风险基本解决。同时,B机房设备上架率提高,电力、制冷设备利用率提高。由于机房运行是个动态过程,运维人员将持续观察机房运行各项参数。

机房的建设是以规划与设计为标准,而在机房投产运行后,实际供电、负载变化等因素常常出现,受其影响,设计指标并不一定能完全实现,因而机房实际运行中会出现许多难以预测的风险,对安全运营产生各种威胁。在实际的运维工作中,运维人员要从实际出发,对机房的各种设备实时监控,对风险早发现、早处理,为最终实际结果负责,以充足的技术论证为前提,合理分配机房设备,充分利用闲置资源解决现有问题,从而优化PUE,为机房安全、高效率运营保驾护航。

责任编辑:武晓燕 来源: 匠心独运维妙维效
相关推荐

2022-06-05 21:09:47

Python办公自动化

2022-06-21 10:04:25

数据中心智慧城市

2022-05-19 19:14:30

数据中心纵向扩展横向扩展

2022-06-30 18:17:00

数据集云数据建模计数据仓库

2022-05-12 14:44:38

数据中心IT云计算

2022-06-28 14:47:43

数据中心服务器科技

2022-06-22 05:53:49

城域网广域网VXLAN

2022-06-15 08:25:07

Python天气数据可视化分析

2022-05-26 18:06:29

华为数据中心

2022-06-15 10:30:07

数据中心5G蜂窝网络

2022-06-13 07:52:43

数据中心数据链路层

2022-06-23 12:43:36

区块链加密货币

2022-05-24 14:46:23

DCIM数据中心

2022-05-13 11:02:45

数据中心配电设计

2022-06-27 19:01:04

Python应用程序数据

2022-07-03 06:10:15

2022-05-30 16:42:20

数据中心

2022-07-01 11:12:53

联想

2022-06-23 11:42:22

MySQL数据库

2022-06-24 10:16:59

Python精选库

同话题下的热门内容

浅析企业数据中心备份规划设计科技赋能绿色金融 数据中心成落地关键人工智能和机器学习如何准备好改变数据中心运营的游戏规则?《农村中小银行数字化发展研究报告》出炉,新华三金融数据中心场景再创新普洛斯数据中心发布DC Brain系统,科技赋能智慧化运营管理施耐德电气用创新赋智赋能未来数据中心省级农信数据中心建设趋势与无损技术创新应用超聚变地市百城行走进大湾区系列-中山站

编辑推荐

如何改变运维在数据中心中的地位详解IPv6与IPv4之间的差别!三大运营商不限量套餐哪家划算?详细对比国外12家值得注意的SD-WAN厂商UPS电源选择与电池容量计算
我收藏的内容
点赞
收藏

51CTO技术栈公众号