随着AI技术的迅猛发展,数据中心对于算力的需求越来越高。据中国信通院数据显示,截至2024年6月,我国在用算力中心超过830万标准机架,算力规模达到246EFLOPS(FP32),智算同比增速超过65%。在如此高算力的需求下,数据中心的整机密度也在不断提高。
近年来,CPU与GPU的单卡功率和服务器的整机功率密度不断提高,数据中心的散热问题成为摆在用户面前最大的挑战。如何降低数据中心的整体能耗,符合国家节能减排政策的要求,成为数据中心运营者不得不重点考虑的问题。为此,采用更加高效的液冷散热技术替代传统的风冷技术,成为未来数据中心的主要发展趋势。
数据中心散热方式的变革
传统风冷技术以空气为冷却介质,成本较低,适合小规模的数据中心。而液冷技术以液体为介质进行热交换,散热介质比热容更大,制冷量大,制冷效率高,更适用于大规模、高密度、高功耗的数据中心。
在AI算力需求的强力驱动下,数据中心GPU服务器的数量大幅增加,所带来的功耗问题日益凸显。我们知道,数据中心单机柜风冷的极限总功率通常被认为在15kW左右。这一数值是基于当前风冷技术的散热能力和数据中心的运行需求所得出的。当机柜的功率密度超过这一极限时,风冷系统的散热效率将大幅下降,无法满足数据中心的制冷需求。
那么,在机柜上架率不变的情况下,GPU服务器所带来的功率增长已经逼近单机柜的极限值。然而,GPU的功耗还在不断地增长。以英伟达发布的GB200旗舰级GPU为例,这款产品包括两个GPU内核,每个内核功耗约为1200W,同时还拥有两个Arm CPU,功耗在300W左右,那么仅仅这个产品的总功耗就达到了恐怖的2700W左右。不难发现,面对高功耗高密度场景,传统的风冷显然已经无法满足能耗和散热需求,液冷技术以超高能效、超高热密度等特点,成为智算中心散热解决方案的必选项。
除了技术层面之外,政策层面对于节能减排的紧迫性同样推动了液冷市场的快速发展。《信息通信行业绿色低碳发展行动计划(2022-2025年)》明确要求,到2025年,新建大型数据中心的电能利用效率需降至1.3以下,这一标准促使数据中心运营商重新审视和改进其散热技术和基础设施。
根据IDC的预测,2022-2027年,中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。中国信通院数据显示,在产业链各方的推动下,中国液冷数据中心市场快速发展。过去几年保持40%的复合增长率。2022年,液冷应用爆发,市场规模达到100.5亿元。预计在人工智能等新技术普及应用带动下,至2027年,中国液冷数据中心市场规模将突破千亿大关。
服务器厂商纷纷入局,加速推动液冷技术发展
在未来的竞争中,企业间的科技创新与产品迭代将成为决定其市场地位的关键因素。随着液冷技术的发展,联想、浪潮、戴尔、曙光、超聚变和新华三等服务器厂商纷纷入局,加速在液冷散热技术方面的研发与生产。
1)联想
联想在液冷技术领域有着深厚的积累,其自主研发的联想海神液冷技术已经演进到第六代,汇集了材料学等多学科的科研结晶。联想海神液冷技术通过全冷板设计,实现了高效散热且支持大规模扩展。此外,联想问天海神液冷解决方案实现了对CPU及电源等关键部件100%全覆盖液冷散热设计,散热系统机械故障率接近于0。目前,联想问天海神液冷方案在全球部署已经超过7万套,广泛应用于高校、科研机构、政企等领域。
2)浪潮
浪潮信息在液冷技术领域也有所突破,并与英特尔共同发布了《全液冷冷板系统参考设计及验证白皮书》,这也是全球首个针对液冷冷板服务器的参考设计方案。浪潮信息的液冷技术不仅涉及当前行业普遍探索的CPU和GPU液冷方案,还在系统层面上达到了接近100%的液冷热捕获效率。
3)戴尔
戴尔科技提供了多样化液冷方案,以满足用户需求。其PowerEdge C6420服务器提供了间接液冷选项,以闭环水流取代典型的金属散热器。此外,戴尔还与TMGcore公司合作,推出了高密度、GPU优化的戴尔易安信C4140服务器在沉浸式环境中运行的解决方案,该方案的处理能力比传统数据中心高35%。
4)超聚变
超聚变以其全液冷整机柜GPU服务器FusionPoD for AI,在提升算力密度和能效方面取得了重大进展。该液冷服务器采用开放架构,专为多样化算力需求设计,可以支持不同类型的GPU模块和显卡的快速适配,迅速实现液冷散热,大幅提升算力密度。目前,超聚变已成功交付超七万台液冷节点。
5)新华三
新华三发布的H3C UniServer G7系列服务器采用了ALL in GREEN全栈液冷技术,实现了极致液冷和高密度计算。该技术采用100%液冷和睿流技术,降低整机能耗;同时,两相液冷及冷凝回流设计使散热效率大幅提升,实现绿色节能。此外,新华三还通过箱式浸没和油类浸没技术实现零碳引擎。
6)宁畅
宁畅在液冷散热技术方面实现了从服务器到机柜,再到智算中心等多形态的液冷选择,覆盖了CPU、内存、硬盘、GPU、各种形态PCIe设备以及PSU等服务器内全部散热单元。由于采用原生全液冷技术,宁畅不仅实现了液冷成本可控,运维方式与风冷无异,而且数据中心运行PUE值可低至1.09,实现了数据中心能效极致,最大限度释放冷空调电力加速算力提升。
可以看出,联想、浪潮、戴尔、曙光、超聚变、新华三和宁畅等服务器厂商在液冷散热技术方面均有着显著的优势和特色。这些厂商通过不断创新和研发,推动了液冷技术的快速发展和应用普及。
液冷技术在未来普及过程中主要面临的挑战
作为一种新型的冷却方式,液冷技术在服务器机柜领域的应用前景广阔,但同时也面临着多方面的挑战。
一是产品标准化问题:液冷技术涉及多个层面,包括液冷数据中心系统架构层、液冷部件及接口层、液冷基础设施层等,各企业技术路径多种多样,产品规格千差万别,导致标准化适配和部署的难度很大。推进液冷技术的标准化进程,提升标准部件的行业用量,是降低整体方案成本的关键。
二是方案可靠性问题:首先,单相冷板方案需要进一步提升工艺和部件的可靠性,降低泄漏风险,并配合漏液检测等方式提升系统可靠性。其次,浸没液冷方案需要解决冷却液的长期兼容性问题,以及CDU等配套设备的运行可靠性问题。
三是成本问题:一是液冷数据中心的初期建设成本比风冷数据中心高出约10%,需要1年左右的时间才可实现拥有成本与投资回报的平衡。二是浸没式液冷方案使用的冷却液,如氟化液,价格昂贵,且存在环保法规风险。油类冷却液虽然成本较低,但散热能力相对较差,且设备维护更为复杂。
四是环保问题:两相浸没冷却技术中使用的某些化学成分可能具有毒性,如PFAS(全氟和多氟烷基物质),难以自然分解;另外,一些用于浸没冷却的液体可能具有较强的腐蚀性,会腐蚀电子设备中的金属部件。
可以说,液冷技术虽然具有高效散热和节能的优势,但在实际应用中仍面临多方面的挑战。因此,为了推动液冷技术的进一步发展,需要不断提升技术可靠性、推进标准化进程、降低建设成本、优化运维管理以及加强安全与环保措施。