当前,数据中心业界进行能耗的分配、估计和测量有很多种方式。而在本文中,我们就将与广大读者朋友们共同探讨进行数据中心功耗测量的原因、功耗的测量情况、数据收集后应当如何处理、并还将为大家介绍当前一些可用的新兴技术。
为什么要测量数据中心的功耗?
假设您作为贵公司数据中心经理接到CIO的电话询问您说:“我们在数据中心的功耗方面做了哪些工作?”您会怎么回答?通常情况下,数据中心经理们并不担心功耗的问题。毕竟,下午7点以后,企业的其他领域可能在没有空调的情况下是可以运转的,但数据中心却是绝对不行的。如果企业需要额外的基于IT的服务,则需要购买并安装必要的硬件。这种方法正在迅速改变,因为1)额外的电力资源通常不可用,2)电力成本正在成为运营数据中心的重要成本, 3)当下,越来越多的企业对于绿色环保举措的采用高度重视,以便被社会认可为优秀的企业,肩负起社会责任,并为遵守各项环保法律法规做好准备。
很显然,您企业无法对没有测量的东西实施有效的管理。对于能耗来说尤其如此。因为在这种情况下,单凭经验法则所进行的估计结果很可能是错误的,从而会导致不必要的,有时甚至是相当可观的成本损耗。被认为只会消耗很少能量的设备所消耗的能量往往可能会很多,即使这些设备只是出于闲置状态,并没有执行任何实质的工作任务。
***步是为企业数据中心当前的功耗定下基准。在理想情况下,这将通过提供有用的历史统计数据来进行比较。早期的测量和估计可能很粗糙,但随着时间的推移,数据中心内部和外部的功率部署逐步得到了更好地理解,并且使得测量质量逐步得到改善,因此得以随着时间的推移而改进。
管理数据中心功耗的方法有很多种,但如果缺乏一些基准测量,就很难知道从哪里开始着手或采取哪些措施能够产生***的影响。另外,如果没有基线测量,则不可能显示企业数据中心过去对于能源消费水平的管理以及您企业数据中心能耗的改进情况。
效率指标
当下,数据中心业界最受关注的能源效率度量指标显然是电源使用效率(PUE)。这是数据中心(包括IT设备在内)所消耗的所有能源量与IT设备所消耗的能耗量之比。总能耗量包括照明、冷却和气流管理设备以及数据中心内部电力分配单元的能耗量。IT设备部分是执行计算任务的设备。
- PUE = 数据中心总设备能耗/IT设备能耗
仅向IT设备供电的数据中心将达到PUE = 1.0,因为分子和分母均为IT设备功率。这显然不符合现实数据中心的运营情况。即使在数据中心的照明系统全部关闭的情况下,也会消耗相应的电力资源以便提供冷却和空气流管理的所需,并且会导致配电效率低下。
而企业平均数据中心效率(CADE)这一指标则考虑到了数据中心设施的能源效率、使用率和服务器利用率。
- CADE =(设施效率)x(IT资产效率)
- 设施效率=向IT设备所提供的能源量/从公共供电公司所获取的能源量
IT资产效率=所有服务器中央处理器(CPU)的平均利用率(其通常是一个很小的百分比,例如5%),直到实施了虚拟化等效率工作。
在哪里以及如何测量
在数据中心,有多处位置可以测量功率。从最粗略的测量逐步晋级发展到最详细的测量,首先是在电源进入数据中心的位置进行测量。如果数据中心是一处独立的结构,并且只是单纯的依靠公共电力公司的供电。那么,这一测量值将是PUE计算公式中的总功率数。
但在很多时候,这并不容易。企业数据中心可能仅仅只占某建筑物中的几层楼层。在这种情况下,应该为数据中心所在楼层或房间单独安装电表。如果数据中心不共享电力或建筑物内的相关设施(如冷却设备)的话,则该电表将记录总功率数量。如果设施和电力是共享的(在城市数据中心尤其如此),那么数据中心管理人员至少需要估计数据中心的总功耗,其可能来自几个不同的来源(例如,由电表所测量的进入数据中心的总供电量,加上建筑物冷却设备所使用的功率的一定百分比)。
经常进行功率测量的下一处位置是不间断电源(UPS)。如果其只是为IT设备供电,那么可以将此数据用于PUE计算的分母。但是,UPS也可能为机架式制冷设备供电。
测量功率的第三处位置是机架本身,其本身就带有计量机架配电单元(PDU)的功能。这些测量数据通常被认为代表了整合到机架的IT设备,除非有风扇或机架侧制冷单元。
测量功率的第四处位置是机架PDU的各个插座。这些智能PDU通常也会提供融合的机架的功耗测量数据。监测插座层面的功率可确保IT设备功耗可以在PUE计算中识别。通过在各个设备级别提供电源信息,可以采取特定措施来提高效率。
测量功率的第五处位置是在CPU上。这给出了实际执行计算工作所消耗的功率的测量。实际上,这在今天尚未广泛使用。在采取实际的节能行动措施方面,CPU级别的测量并不是很有用。因为在大多数情况下,数据中心员工可以对整个设备、刀片服务器或其他IT设备的数据进行更改或削减,而不是CPU。测量数据中心功耗的最典型方法是计量机架式PDU和智能机架式PDU,用于监测单个输出。
如何处理收集的数据
根据企业数据中心所选择的测量位置和测量方法的不同,可以采取各种不同的提高能效的举措。如果能够提供有用的可操作信息的话,我们建议企业数据中心的管理人员们可以对IT设备使用单独的插座级测量方法。
通过监测机架上的功耗,数据中心管理人员们可以确定其原始功率分配是否合理。通常,在铭牌额定值的基础上为IT设备分配功率,但这些铭牌额定值通常都很保守。即使使用铭牌功率的一定百分比,例如70%,功率通常也是过度分配的。这意味着IT设备机架的耗电量将超过实际消耗的功率。这种“闲置的功率”可以被部署到其他地方,但是在负载高峰的情况下,如何知道您数据中心的机架不会很容易遭遇电力资源耗尽的情况呢?
定期监测每款设备,并且这一时间间隔越短越好,以确保没有忽略高峰期。通过单个设备的功耗数据,可以设置机架,使设备功耗模式相互补充,从而可以用相同的功率来支持更多的IT设备。如果机架即将消耗尽分配给它的所有电力资源,并因此有妨碍断路器的风险,拥有单独的IT设备功耗数据可让IT管理人员以合理的方式移除设备,从而将断路器跳闸的风险降至***,同时保持合适的装载量。
例如,通过在其自己的数据中心进行测试,美国Raritan公司确定了简单的经验法则的铭牌评级百分比并不起作用。在59台服务器中,15台平均功耗为20%或更低,29台为21%至40%,9台为41%至60%,4台为61%至80%,2台为81%或更多。即使在功耗峰值时,49台服务器的铭牌评级也低于60%。许多数据中心规划人员使用铭牌的70%,这意味着许多数据中心有很多闲置的电源。
另一方面,在峰值功耗方面,59台服务器中有5台占了铭牌的81%或更多,因此有可能被关闭的风险。就功耗而言,了解单台设备正在发生什么是很重要的,而不是仅仅掌握一些可能掩盖高端和低端问题的总体平均值。
环境传感器及其对功率和冷却效率的影响
环境传感器对提高数据中心的电源效率起着非常重要的作用。冷却消耗达到30%或更多数据中心的总功率并不罕见。供应商提供入口温度规格。只要入口温度在规格范围内,服务器就能正常工作。这些规格通常远高于数据中心冷通道中所通常提供的规格。因此,通常可以调高数据中心操作环境的温度,以降低冷却设备的功耗。
温度传感器应安置在冷气入口侧的机架底部,中部和上部三分之一处。将IT设备冷却到低于要求的温度会消耗大量电力资源,而并不会带来任何有利的影响。由于缺少机架式仪器,数据中心管理人员经常过度冷却,以确信IT设备不会失效。
可用的新技术介绍
仅仅在一个时间点拍摄单个功耗快照是不够的。IT设备在凌晨2点可能比上午8点耗能少得多,并且可能在周四下午4点达到峰值功耗。耗电量也可能随着一年中的季节的变化而变化,例如在12月在线销售旺季达到高峰。
有些硬件设备可以按用户定义的时间间隔每隔几秒钟执行一次功耗快照拍摄。软件程序可用于将这些数据点转换为用电量的计算,其中度量单位为千瓦小时(kWh)。更为先进的工具可以根据能源使用情况计算碳足迹。凭借实际的单个设备的信息,数据中心的工作人员可以了解生成碳排放量***的单位,因此得以进行按图索骥的管理。
相关考虑要素
准确性:由于碳排放量的上限规定,信用机制和交易机制被采纳,准确性变得重要。假设***的正弦波(现实世界中很少出现),正负5%偏差的准确度可能是可以接受的,以确定机架在断路器跳闸之前是否以大约25%的边际运行。在处理法规和碳信用额以便在交易中进行验证和交易时,这是不可接受的。对于计费或chargeback退款还不够准确。
开放和互操作性:许多数据中心都部署了IT管理系统。为了将这样的系统与功率测量联系起来,需要寻找与现有设备集成和互操作的开放标准。易用性是一个重要考虑因素,因此电源管理对于已经很忙的IT人员来说不会成为一个耗时的项目。
安全性:电力资源是数据中心的生命线。确保对电源管理系统的访问是安全的,这一点很重要。查找具有高级别加密功能的系统,如256位高级加密标准(AES)以及设置身份验证,授权和权限的功能。
结论
我们希望,下一次如果贵公司的CIO打电话给您,并问道:“我们在数据中心的功耗方面做了些什么工作?”时,您能够参考本文所介绍的内容,并概述一套可行的计划,通过收集相关数据信息以建立一定的基线。现在,收集数据,并采取诸如PUE计算等数据中心指标的方法,将会帮助您企业数据中心更有效地管理电力和电力成本。进而更有信心的接听CIO的电话。