在需要不断的提供高性能和始终可用的IT基础设施的压力驱动下,当前的企业数据中心大都超越了其正常能力,以支持企业业务日益增长的各种需求。而伴随着服务器数量、存储空间和网络设备数量不断的呈指数级的增长,许多企业的数据中心正面临着电力供应、冷却散热和空间不足等等一系列的问题。
很多时候,对于数据中心的电源空间和冷却问题的解决方案决策的制定都是由分析师和供应商们在未经充分考虑企业组织的传统IT环境的情况下所做出的。诸如通过安装高密度的刀片服务器和存储设施、模块化的电源系统、机架行内冷却系统、通道填充、虚拟化和云计算等方案来解决电源、散热和空间问题的战略决策都只有在经过了恰当使用时才会有所帮助。
许多企业组织数据中心正在部署更小密度的服务器和存储系统,以提高容量,并避免重新安置数据中心或构建全新的数据中心。同样需要强调的是,您企业需要格外小心您的部署,以免发生“功率密度悖论(Power Density Paradox,PDP)”。功率密度悖论本质上意味着:通过在数据中心部署更密集的设备,您企业的数据中心将达到一个拐点,以满足对于数据中心空间需求的增加,从而将会带来更多的资本支出、运营成本支出和大量的重组工程。部署密集的设备还意味着企业数据中心对电源、冷却和备份系统的额外需求的增加,而这些最终将导致数据中心成本的增加。
为了提高效率,企业组织必须在服务器和其他设备的密度,以及数据中心的电力、冷却和空间资源的可用性之间取得平衡。忽略这一点,会导致企业数据中心资本支出以及运营支出(电力和冷却费用)的增加,以及发生停机中断机会的增加,从而使您企业的业务面临极大风险。
产生功率密度悖论的根源
自从20世纪90年代中期以来,服务器的技术已经发生了显著的变化。彼时,诸如IBM AS/400这样的落地式小型计算机(该产品现在仍然在售,即为System-i)刚刚开始被机架式服务器所取代,该机架式服务器只需要3-5U的机架空间。这基本上使得服务器的密度增长了14倍。而到了2000年,这些机架式服务器缩小到1U的“比萨盒”设计,仅到2002年才被刀片服务器所取代。这些设备在单台刀片服务器上安置多个服务器主板(每台服务器都有自己的处理器、内存、I/O连接,有时甚至包括磁盘驱动器)。
这显然为每台机架服务器的密度带来了显著的变化——增加了84倍!相应地,这些服务器的计算能力从多个方面获得了极大的增加,这意味着更多的处理器被安置在既定的数据中心空间中,并且使得企业有了更多的能力来运行和冷却它们。有鉴于这种情况,管理数据中心的冷却散热成为了企业数据中心运营管理人员们的一个巨大的挑战,同时也是对数据中心规模继续增长和可靠性的一大限制。系统发生停机中断的可能性会更大,从而妨碍数据中心的正常操作运营。
电源功率:服务器的运营环境越密集,对其供电和实施冷却所需消耗的电力资源就越多。例如,每平方英尺需要60至100瓦的功率才能确保传统的小型计算机或3-5 U服务器的全机架的顺利运行。用较小的1U服务器填充同样的数据中心空间需要至少200瓦每平方英尺,而***的刀片服务器需要高达每平方英尺400瓦。
冷却:由计算环境所消耗的额外的每瓦的功率均必须用等量的冷却来抵消。密度更高的数据中心还需要更大的空气迁移能力来输送更冷的空气,并有效地从数据中心操作运营空间中除去热空气。
数据中心占地空间:对更多电力和冷却的需求无形中推动了对数据中心占地空间的需求。由于密度更高的服务器每平方英尺比低密度服务器需要消耗更多的功率,故而也就需要更多配套的支持设备,如空调、UPS不间断电源和备用发电机。
电源功率、冷却和数据中心占地空间需求三者之间是相互依存的。数据中心的服务器机架越密集,也就会进一步的推高企业数据中心操作运营环境对于电源和散热的要求,进而加大了数据中心管理运营人员们不断扩充数据中心空间的压力。
无视悖论的风险
1、造成散热和冷却成本的浪费
在无视电源功率密度悖论的情况下,实现高密度服务器的***个,也是最明显的风险便是:会导致电力和冷却成本的快速和不必要的增加,以及CRAC等设备的维护成本的增加。如果您企业数据中心的可用功率有限,这些额外的加热和冷却需求可能会降低IT计算机、存储和网络系统的可用净功率。
2、意外的设备支出的增加
第二大风险是:未能预期的、用于保持数据中心运营过程中的相关设施的解决方案资本和运营费用的增加。使用专用的空气处理设备,例如活动瓷砖或便携式/独立式CRAC(机架行内冷却系统)是数据中心可能即将达到其使用寿命即将结束的警告标志。即使这些系统延长了数据中心的使用寿命,但它们也会增加您企业的功耗和维护费用,同时还有可能带来潜在的故障威胁。
3、发生停机中断风险增大
与低密度环境中的服务器相比,部署在高密度数据中心操作运营环境中的服务器发生意外停机的风险要大得多。即使UPS在发生公用供电损失期间仍然能够继续为相关的设备提供所需的电力资源,但这些设施也将失去冷却和气流,直到发电机投入运行,并且直到冷却系统再循环。
如果能够服务器检测到环境温度的上升,并关闭服务器,以防止其遭受损坏的话,则由此类冷却故障所导致的停机中断时间大约可能是几分钟;或者在多余的热量真正损坏到了硬件的情况下,则发生停机中断的时间可能会更长。
根据用于确保应用程序软件弹性架构的不同,这可能会迅速导致应用程序发生停机中断,降低整体性能/吞吐量,还有可能让企业业务面临财务风险。
IT设施的优化是关键
糟糕的数据中心设计和管理实践方案可能会加剧与功率密度悖论相关的问题。这方面的一个例子便是:多年来,一些企业的数据中心随意的安排其服务器设备机架,并随意的因为业务的需要而添加更多的服务器容量。但由于并没有提前针对新增的服务器和机架实施任何的数据中心气流和冷却方面的规划,因此会导致热点,增加功耗,并导致数据中心整体的冷却效率低下。
另外,与现代化的高密度数据中心不同,老式的数据中心在其高架地板下通常只有12至18英寸的空间用于散热(可能与网络和供电电缆共享)。为热通道/冷通道气流重新配置机架会稍微有助于提高效率,但由于浅高架活动地板限制了冷气流,因此并不会实际增加总体的容量。
优化和平衡才是出路
解决功率密度矛盾的***方法是了解其对于企业数据中心的影响,并根据所涉及的数据中心计算能力进行评估,制定前瞻性的电气要求和冷却设施计划。而包括IT,运营和设施人员在内的相关团队应该进行综合性的评估;这样,各个相关团队都可以了解他们的选择对于整个企业数据中心操作运营环境的影响。
实际上,许多企业的各个部门都是在孤立的运作,或者说是“孤岛”上根据各自部门的需求自主的进行决策。对于大多数日常的运维活动来说,这没什么问题。但是,数据中心整体并不是孤立的。虽然IT设备是由IT部门负责采购、安装并经常实施维护的,但电源和冷却设备则通常是由设备人员负责的,而这些设备人员往往并不了解现代化的高密度服务器的电源和冷却方面的具体需求。让企业所有相关团队都参与进来,有助于让每个团队都关注到企业组织的整体目标,以便降低成本,充分利用流动资产,避免在当今经济衰退的大环境中出现不必要的资本支出。
从业界专家那里寻求帮助
功率密度悖论使得看似简单的决定比表面上看起来更为复杂。而来自独立的第三方的观点则可以平衡企业IT、设施和财务等相关部门所面临的需求和挑战。借助高密度数据中心设计和运营方面的专业知识可以帮助企业节省时间和资金,同时为长期需求提供灵活的途径。从业界专家那里寻求帮助,可以有助于数据中心的效率提升,降低资本成本,并降低运营支出。
其他建议
当前,面临严峻的运营维护成本、房地产和电力限制的企业组织不应该盲目地使用超高密度服务器和存储系统来节省其数据中心的空间和资金。如果在未经充分的规划,并且未对企业的业务需求和数据中心操作运营环境进行全面分析的前提下这样做的话,那么使用此类设备实际上会增加成本和业务风险。
作为企业数据中心的经理,对数据中心操作运营环境进行全面的评估,可以大幅节省成本,延迟甚至消除昂贵的数据中心建设或重新部署的需要。