新华三李乔:AGI时代算力基础架构面临的挑战与机遇

服务器 数据中心
随着数据、算力及算法取得不断的突破,人工智能将会重塑整个经济、社会、产业和人们生活的方方面面。这就需要互联网公司整合各类资源打造垂直的生态,借助生态伙伴的力量实现科技成果转化,更好的赋能百行百业。

目前,人工智能按照进化阶段分为了弱人工智能(ANI)、通用人工智能(AGI)和超人工智能(ASI)三个阶段。自1956年麦卡锡、明斯基等科学家首次提出“人工智能(Artificial Intelligence,简称AI)”这一概念,标志着人工智能学科的诞生;到2017年,谷歌Transformer模型的发布颠覆了传统的自然语言处理模型,奠定了生成式AI的基础;再到2022年,OpenAI正式发布 ChatGPT并在短短2个月内实现了用户数破亿,大量类ChatGPT的通用人工智能随之涌现,正式揭开了AGI时代的序幕。正如微软CEO萨提亚 · 纳德拉所说,“AI的黄金时代正在到来,并将重新定义我们对工作的全部认识”。在各个行业中,必将涌现出无数基于类似GPT-4这样的通用AGI平台的创新应用,重构行业的产品、服务和流程,进而影响我们每一个人的工作、生活和学习。

图片1.jpg

新华三集团副总裁、互联网事业部总经理  李乔

人工智能的三要素包括数据、算法及算力。作为AI原料的数据是十分有限的,可利用的公域数据在2026年之前就会被大模型全部训练完成。场景化AI训练、微调的数据来源将尤其依赖于有价值的私域数据,但私域数据往往是不开放的,隐私计算和联邦学习则将成为打破数据孤岛极为可行的方案,同时合成数据技术的应用也将成为必然。此外,算法复杂度呈指数级增长,模型层数、参数规模快速膨胀的同时也在不断突破。当下,三要素中的算力成为了很多应用落地的最大瓶颈。那么,AI算力基础架构具体面临哪些挑战与机遇?

一、挑战

在AGI时代,数据大模型的参数规模呈现出快速增长的态势。GPT从2018年的1.17亿发展到2020年的1750亿,文心一言3.0参数规模达到了2600亿,Google的Palm 2参数量也超过3400亿。随着参数模型的日益庞大、摩尔定律陷入瓶颈。对计算效率精尽的追逐,使得冯•诺依曼结构的先天性不足被成倍放大。计算墙、内存墙、通信墙、能耗墙成为了AGI算力基础架构的四大挑战。

首先谈谈AI计算的主角GPU。大模型并行计算量巨大,以GPU/TPU代替CPU进行大量简单重复计算,虽然计算效率有了明显的提升,但单卡算力和大模型所需总算力之间仍然存在巨大差距。以GPT-3为例,每进行一次训练迭代需要消耗4.5ExaFlops算力,而主流GPU单卡算力只能达到TFlops级别。百万级别的算力差距便产生了算力墙。分布式训练在一定程度上解决了算力墙问题,但综合考虑TCO及不同的AI场景,使用专业的芯片和异构计算架构将成为突破算力墙的另一个必要方向。

参数量是衡量模型大小的最关键指标,参数越多对内存的需求越大。以1750亿参数的GPT-3为例,参数量(FP16精度)需要350GB内存(175B*2Bytes),梯度(FP16精度)需要350GB内存(175B*2Bytes),优化器状态(FP32精度)需要2100GB内存(175B*12Bytes),总计需要2800GB内存(350GB+350GB+2100GB)。而主流的GPU卡仅能够提供80GB显存,单个GPU无法装下如此庞大的参数量。此外,现有的计算架构以CPU为中心,CPU主内存与GPU本地内存无法统一寻址,内存资源相互隔离,GPU无法高效的使用CPU主内存资源,最终导致产生内存墙。

我们在利用大型分布式训练解决算力墙和内存墙问题的同时,又产生了通信墙。不同的并行训练方式下,服务器内及服务器间会分别引入AllReduce、AlltoAll、梯度数据聚合与分发等通信需求,通信性能强弱将影响整体计算速度的快慢。以千亿级参数规模的大模型训练为例,单次计算迭代内梯度同步需要的通信量就达到了百GB量级。此外,AI大模型训练是一种带宽敏感的计算业务,测试数据表明,采用200G网络相对于100G网络,会带来10倍以上的性能提升。基于以上两方面,一张能够为机间通信提供高吞吐、低时延服务的高性能网络十分重要。服务器的内部网络连接以及集群网络中的通信拓扑还需要进行专门设计,实现算网的高效协同。

大模型的训练和推理是两头能量怪兽,势必带来极大的功耗。当前业界主流的8卡GPU服务器最大系统功耗高达6500W,用于GPU服务器之间互联的128口400G以太网交换机的功耗也接近3500W。以ChatGPT为例,要满足每天2.5亿的咨询量,需使用3万张GPU卡,那么,仅仅在推理环节每天消耗的电费就超过50万元(按照每度电0.8元计算),因此能耗墙是每个运营者都要面对的现实问题。

算力墙、内存墙、通信墙和能耗墙这四大挑战之间存在一定的关联性,我们不能靠简单的堆砌来解决问题,产品架构的系统性设计显得的更为重要。紫光股份旗下新华三集团在计算、网络、存储方面都有长期的积累和沉淀,能够系统性地研究和考虑以上的问题,并提出相应解决方案。

二、算力墙应对之道

面对AGI时代算力的爆发式增长需求,单一处理器无法同时兼顾性能和灵活度。在此情况下,用最适合的专用硬件去承担最适合的计算任务,并采用异构计算架构去整合这些多元算力,是突破算力墙的有效手段。

在当前的AI训练场景,NVIDIA高端GPU是市场上的“硬通货”,其2023年发布的Hopper架构是NVIDIA GPU的集大成者,一经推出便受到市场的青睐。

除了采用GPU外,为人工智能业务开发专用的AI芯片逐渐成为业界的新趋势。

在AI芯片领域,最具代表性的是Google TPU(Tensor Processing Unit)。发布于2016年的第一代TPU成为了 AlphaGo 背后的算力担当,当前已经发展到了第四代的TPU v4。与 GPU 相比,TPU采用低精度计算,大幅降低了功耗,加快了运算速度。

Meta也发布了MTIA(Meta Training and Inference Accelerator)自研AI芯片,该芯片采用RISC-V开源架构,可应用在自然语言处理、计算机视觉、推荐系统等领域。

除了AI芯片日益多元化之外,AI芯片间的高速互联技术也是突破算力墙的关键。

NVDIA首创了NVLink + NVSwitch技术,为多GPU系统提供更加快速的互联解决方案。借助NVLINK技术,能最大化提升系统吞吐量,很好的解决了GPU互联瓶颈。最新的NVIDIA Hopper架构采用NVLINK4.0技术,总带宽最高可达900GB/s。

图片2.jpg

2023 年 5 月 29 日,NVIDIA推出的DGX GH200 AI超级计算机,采用NVLink互连技术以及 NVLink Switch System 将256个GH200 超级芯片相连,把所有GPU作为一个整体协同运行。

Google推出的OCS(Optical Circuit Switch)光电路交换机技术实现TPU之间的互联,解决TPU的扩展性问题。Google还自研了一款光路开关芯片Palomar,通过该芯片可实现光互联拓扑的灵活配置。也就是说,TPU芯片之间的互联拓扑并非一成不变,可以根据机器学习的具体模型来改变拓扑,提升计算性能及可靠性。借助OCS技术,可以将4096个TPU v4组成一台超级计算机。

为了满足了AI加速芯片的互联需求,OCP组织2019年成立了OAI开源项目组,通过OAM子项目定义业界通用形态的GPU/AI模块、对外提供标准通信接口,建立OAI相关的技术架构。芯片厂家只要将其GPU/AI加速芯片做成OAM模块的形态,通过UBB来承载多个OAM模块,就可以在任何支持OAM/UBB模块的服务器上兼容使用。

图片3.jpg

新华三集团作为OAI 2.0规范的主要起草单位,在国产化OAM方面多有相应的落地实践。那么如何在AI算力日益多元化的情况下,如何有效整合这些多元算力?采用异构计算技术是最佳选择。在异构计算领域,新华三开展了广泛的实践,H3C Uniserver R5500 G6践行异构计算设计理念,可搭载Intel或AMD CPU,机箱天然兼容NVIDIA Hopper架构GPU以及OAI架构,同时提供对多家厂商DPU的支持能力,为不同的应用场景提供了澎湃算力。

未来,还可采用类似XPU Direct RDMA的异构芯片通信技术,实现异构计算平台互联。XPU通信时不再需要CPU中转,大幅减少数据拷贝的次数,提升了通信性能,有效整合了多元算力。

图片4.jpg

三、内存墙应对之道

随着服务器向异构计算架构转型,传统的PCIe互联模式已经无法满足高速缓存一致性和内存一致性的需求。GPU加速卡无法使用Host主机自带的内存资源,无法很好的解决AI大模型训练场景遇到的内存墙问题。为此,迫切需要在服务器内使用新兴的互联架构,突破内存墙的限制。

NVIDIA Grace Hopper架构中,完美的解决了大模型训练的内存墙问题。在该架构中,Grace CPU和Hopper GPU使用带宽高达900 GB/s NVLink C2C链路互联,GPU可以通过NVLink C2C透明地访问CPU上的512GB内存资源。

图片5.jpg

NVIDIA通过Grace Hopper向业界展现了突破内存墙问题的解决方案。此外,AMD推出的 Instinct MI300,英特尔推出Falcon Shores也采用了类似的解决方案来突破内墙问题。但这些都属于私有技术。有没有一种开源方案既能解决大容量内存问题和内存一致性问题,又能避免对现有协议体系完全颠覆? Intel联合其他8家科技巨头于2019年成立的CXL(Compute Express Link)联盟就致力于解决该问题。

CXL是一种开源的互联技术标准,能够让CPU与GPU、FPGA或其他加速器之间实现高速互联,并且维持CPU内存空间和加速器设备内存之间的一致性,以满足资源共享、内存池化和高效运算调度的需求。CXL组织已经发布CXL3.0版本,数据传输速率提升至 64 GT/s,并引入了Fabric功能和管理、改进的内存共享及池化技术、增强的一致性以及对等通信等重要功能。 放眼未来,CXL4.0基于PCI-Express 7.0标准,拥有更高的容量(512GB/S)和更低的延迟,将在性能上实现另一个层级的跃升。

当前,各大上游厂商都在开发或已推出支持CXL协议的部件,实现GPU显存与主机内存的统一寻址,解决内存墙问题已经近在眼前。畅想未来,随着CXL Switch等关键部件的进一步发展,我们可以实现CPU、GPU、内存等资源的进一步池化,各资源池通过CXL Switch互访互通,在集群层面实现全局内存一致性。

图片6.jpg

新华三集团在2019年4月正式加入了CXL组织,并于2022年升级为Contributor会员。新华三在CXL技术研究上进行了持续的投入,目前正在开展基于CXL技术的内存池化、异构互联方面的研究。

四、通信墙应对之道

在集群网络方面,为大模型训练优化过的无损网络解决方案可提供高吞吐和低延时的网络服务,确保在大规模训练时集群的性能。

4.1端网融合的RoCE无损网络

RoCE网络是基于以太网 RDMA技术实现的,它比IB更加开放。RoCE可以基于现有的以太网基础设施进行部署,网络管理更加简化。但RoCE也面临着一些挑战,比如ECMP负载不均、哈希冲突、PFC死锁等。基于IP协议的开放性,出现了多种针对RoCE的优化方案,其核心思想即将服务器、网卡、交换机作为一个整体,结合创新的拥塞控制算法,实现端网协同。

Google数据中心使用的TIMELY算法,由网卡进行端到端的RTT时延测量,根据RTT时延数据调整发送速率,实现高性能的RoCE网络。TIMELY算法使用谷歌自研网卡实现,主要应用在Google内部。

阿里团队提出的HPCC拥塞控制算法,它使用可编程交换机,通过INT遥测携带网络拥塞数据,然后由智能网卡动态调整发送速率,获得高带宽和低时延的高性能网络。

EQDS(edge-queued datagram service)是目前被广泛讨论的另一种拥塞控制解决方案。它将网络中的绝大部分排队操作从交换机转移到发送端网卡上,使得交换机可以采用很小的缓存设计。EQDS由接收端网卡驱动,通过Credit机制,来指导数据包发送。另外EQDS使用Packet Spray实现逐包的负载均衡,以解决负载不均和哈希冲突的问题。如果交换机支持DCN(Drop Congestion Notification)技术,可以由交换机实现数据包修剪(Packet Trimming),仅将拥塞报文的报文头发送给接收端,接收端接收到报文头后,可以要求发送端快速重传数据包。实验表明,EQDS在测试中表现出色,能够显著提高数据中心网络的性能。

新华三集团正在研究基于自研服务器、智能网卡和高性能交换机,实现端网融合的RoCE无损网络解决方案,为AI业务提供高性能无损通信网络。

4.2在网计算

除了通过增加网络带宽、提升链路利用率、优化拥塞控制算法外,在网计算(In-Network Computer)是另一种优化通讯开销的重要手段。在网计算(In Network Computing)可以将AI分布式训练的集合通信操作卸载到网络设备上,让网络设备参与计算,减少计算节点之间的消息交互,大幅缩减AI分布式训练的时间。

以集合通信中使用频率最高的AllReduce规约运算为例,从各节点收集梯度,将训练过程中的汇总规约卸载到集成了计算引擎单元的网络交换机中进行,然后再更新至每一个节点。通过在网计算技术,加速了整个Allreduce的过程,可以有效的减少网络拥塞和降低通信延迟。

图片7.jpg

新华三集团积极投入在网计算技术的研发,借助可编程交换芯片或在传统交换机中引入FPGA芯片实现在网计算,提升AI训练的整体性能。

4.3高速以太网及光互联

算力需求的爆发式增长推动了数据中心网络向800G、1.6T及更高速率快速演进。光模块作为网络互联的关键部件,随着速率的提升其功耗也一路攀升,在整机系统的占比已经远超ASIC加风扇功耗之和。另外,高速光模块在数据中心网络建设中的成本占比也在大幅提升。为了应对由此带来的功耗、成本和时延挑战,业界出现了两种最具潜力的解决方案。

LPO线性直驱技术去掉了光模块中功耗最高的DSP芯片,由交换机ASIC芯片来对高速信号进行补偿和均衡,在实现成本下降的同时,大幅降低了光模块的功耗和延迟,非常适合应用在短距大带宽、低功耗低延时的AI/ML场景。

传统可插拔光模块到交换机ASIC芯片电信号连接距离较长,途经点较多,累积损耗大。通过CPO/NPO等封装技术的引入,显著缩短了交换芯片和光引擎间的距离,同时能够提供更高密度的高速端口,更适合在1.6T速率后实现高算力场景下的低能耗、高能效。

图片8.jpg

在高速互联技术领域,22年新华三集团发布了采用NPO技术的400G硅光融合交换机S9825-32D32DO, MPO光引擎接口支持2KM传输距离,端口功耗降低40%以上。

WPS拼图0.jpg

2023年,新华三集团进一步推出了采用共封装技术的CPO交换机,对外提供64个800G接口或128个400G接口,并计划今年内推出支持LPO线性驱动光模块的128口400G,64口800G端口的交换机产品。未来,新华三将通过持续的技术创新为AI业务提供高性能、低延迟、低能耗的通信网络,解决通信墙的难题。

五、能耗墙应对之道

降低AI模型整体能耗的主要方式依然是提高数据中心的散热效率,液冷散热方案因其低能耗、高散热、低噪声、低 TCO 等优势,有着巨大的发展潜力。

其中,浸没式液冷散热是典型的直接接触型液冷,发热元件与冷却液直接接触,散热效率更高,噪音更低。目前,浸没式液冷方案已由初期的单相式液冷进化为相变式液冷,充分利用冷却液的蒸发潜热,满足散热极端要求,保证IT设备满功率运行。

目前,新华三集团在浸没式液冷方案方面完成了全面布局,紧跟互联网业务发展步伐,秉承产学研一体理念,从冷板式液冷到浸没式液冷,从单相式液冷到相变式液冷,从3M冷却液到国产冷却液,积极研究跟进推出新华三液冷系统一体化解决方案,包含液冷交换机、液冷服务器、热交换单元、外冷设备等,并且在液冷方案方面持续进行方案迭代和前沿技术探索。

六、展望

本文主要从基础架构角度去讨论如何应对AGI时代的挑战。随着数据、算力及算法取得不断的突破,人工智能将会重塑整个经济、社会、产业和人们生活的方方面面。这就需要互联网公司整合各类资源打造垂直的生态,借助生态伙伴的力量实现科技成果转化,更好的赋能百行百业。作为数字化解决方案领导者,新华三集团具备百行百业的解决方案能力,通过把互联网公司的大模型能力融入到新华三解决方案中,可以开展面向政府、企业、金融、医疗、教育等场景的N项业务合作,共同应对快速场景化落地的挑战。

责任编辑:张诚
相关推荐

2022-07-31 14:30:00

新华三

2016-11-07 20:22:18

2014-12-25 14:28:47

大数据IDC

2017-05-08 10:52:09

2017-11-06 15:33:33

HCI软件平台

2022-09-27 11:41:03

新华三

2011-06-01 11:06:00

开源社区文档

2024-01-15 14:39:45

以太网网络电缆PoE系统

2010-04-19 13:37:50

互联网

2022-12-05 17:06:51

新华三

2023-06-02 10:01:17

2016-01-20 17:12:16

2016-09-22 14:24:52

IBM

2022-03-18 17:34:32

新华三

2020-07-21 09:42:27

5G网络技术

2015-06-30 10:47:56

点赞
收藏

51CTO技术栈公众号