2025年春节前,DeepSeek着实火了一把。时至今日,这股热潮仍在持续。虽然DeepSeek通过技术上的创新降低了对算力的需求,但是由于越来越多的企业、开发者和个人使用大模型,利用大模型进行业务创新,同样催生了数据中心算力需求的不断增长。
由于大模型的参数量已突破万亿级别(如GPT-5),传统CPU架构难以满足其训练与推理需求。2025年,数据中心将全面转向“CPU+GPU+DPU+TPU”的异构计算模式。笔者认为,除了高算力驱动数据中心向异构计算转型之外,日益凸显的能耗问题也驱使数据中心运营管理者寻找更加高效节能的算力解决方案,这也是各种AI专用加速卡快速发展的原因之一。
AI加速卡在数据中心中扮演的重要角色
随着AI和各种大模型应用的快速发展,数据中心的负载不断增加,传统以CPU和GPU为主的算力部署方案已经无法满足日益增长的算力需求。GPU、DPU、TPU等各种类型的加速卡应势而生。这些专门设计的硬件设备旨在提升数据处理速度和效率,并降低数据中心的整体能耗。
1)降低CPU工作负载:在传统的数据中心架构中,CPU承担了绝大部分的数据处理任务,导致系统负载过高。而AI加速卡可以将部分计算任务转移到专用硬件上,从而实现CPU工作负载的降低。这样,CPU可以将更多的资源用于其他任务,提高整体系统的处理能力,并有效降低数据中心的能耗。
2)提升数据处理速度:在实时计算和分析的应用场景中,通过专用高性能处理器和大容量缓存,AI加速卡能够更加快速地处理大量数据请求,减少数据传输的延迟,尤其是在金融交易、在线游戏和大数据分析等场景中,AI加速卡能够显著降低响应时间,提高用户体验。
3)优化网络带宽:网络带宽是数据中心运行的一个重要指标。专用的网络加速卡通过硬件加速技术,能够在数据传输过程中优化网络带宽的使用,提高数据传输效率。它可以智能地分配网络资源,避免网络拥堵现象,从而确保数据传输的顺畅。
4)提高安全性:数据安全是数据中心运营中的重要课题。很多加速卡在设计时通常考虑了安全性问题,并内置了安全功能,如数据加密和身份验证等。这些功能可以有效防止数据在传输过程中的泄露和篡改,提高数据中心整体的安全性。
二、从GPU到ASIC的算力竞技之战
数据中心加速卡市场存在着多种不同的技术,包括GPU(图形处理单元)、FPGA(现场可编程门阵列)、ASIC(专用集成电路)等。作为算力基础设施的核心组件,加速卡市场已成为芯片巨头、云计算厂商和初创企业的必争之地。从英伟达的GPU到谷歌的TPU,从AMD的Instinct系列到中国厂商的自主化方案,这一领域的竞争已从单纯硬件性能的比拼,演变为技术路线、生态构建与行业标准的多维度博弈。
一) GPU阵营:通用性与生态壁垒
GPU是一种高度并行的处理器,能够同时处理多个任务。它擅长处理浮点运算和矩阵运算,因此在深度学习等需要大量计算资源的领域具有广泛应用。GPU加速卡广泛应用于深度学习模型的训练和推理阶段。在训练阶段,GPU能够提供强大的计算能力,加速模型的训练过程;在推理阶段,GPU同样能够提供快速的响应时间,满足实时应用的需求。
NVIDIA:凭借Hopper架构的H100和Ampere架构的A100,英伟达占据全球数据中心加速卡市场80%以上份额。其核心优势在于拥有400万开发者的CUDA生态、数千个优化库以及Tensor Core对混合精度计算的支持。最新发布的H200在HBM3e显存容量(141GB)和带宽(4.8TB/s)上的突破,进一步巩固其在LLM训练领域的统治地位。
AMD:AMD最新的MI300X采用Chiplet设计,集成1460亿晶体管和192GB HBM3,凭借开放ROCm生态和性价比策略争夺市场份额。但其软件生态成熟度仍落后CUDA约2-3年,需要依赖与PyTorch等框架的深度绑定实现差异化突围。
二) FPGA阵营:灵活性与定制化
FPGA是一种可编程的硬件,用户可以根据自己的需求对其进行配置。它具有高度的灵活性和可重构性,能够根据不同的应用场景进行优化。FPGA加速卡适用于一些特定算法的加速,如图像处理、信号处理等。在这些领域中,FPGA可以通过定制化的硬件设计,实现更高的计算效率和更低的功耗。
Altera:Altera最新推出的Agilex 7 FPGA支持DDR5和CXL协议,在实时数据处理、网络加速等场景保持优势。但高昂的开发成本和较长的部署周期限制了其在AI训练中的普及。
AMD:AMD Alveo U55C基于Versal架构,配备32GB HBM2e和100GbE网络接口,主要应用于分布式AI推理集群,相比GPU方案能效比提升2倍。除此之外,AMD还发布了Alveo SN1000 SmartNIC,它集成FPGA与16核Arm处理器,支持OVS(开放虚拟交换机)硬件卸载,可将云服务器的网络处理功耗降低60%。
三) ASIC阵营:专用化与能效比
ASIC是一种专用集成电路,针对特定的应用场景进行优化设计。它具有高度的集成度和低功耗的特点,能够在特定的应用场景中实现最佳的性能,提供比GPU和FPGA更高的计算效率和更低的功耗。
谷歌TPU v5:谷歌TPU(Tensor Processing Unit)v5是谷歌推出的第五代张量处理单元,专为加速人工智能(AI)模型的训练和推理而设计。TPU v5系列包括v5e和v5p两个版本,分别针对不同的性能和成本需求。TPU v5p提供超过2倍于TPU v4的浮点运算能力(FLOPS),并配备3倍于前代的高带宽内存(HBM),显著提升AI模型的训练速度。每个TPU v5p Pod由8960个芯片组成,采用3D Torus拓扑结构,芯片间互联带宽高达4800 Gbps,确保高效的数据传输。
亚马逊云科技 Inferentia/Trainium:亚马逊云科技 Inferentia加速卡是专门设计用于优化深度学习模型的推理性能,包含多个NeuronCore单元,专为低延迟、高吞吐量推理任务设计。通过亚马逊云科技的EC2实例(如Inf1实例)进行部署,支持数以万计的推理请求,满足企业级的推理需求。亚马逊云科技 Trainium加速卡专为大规模深度学习训练任务设计,同样使用了Neuron技术,每个Trainium加速器具有32GB容量和820GB/s带宽的HBM内存,FP16算力达到190TFLOPS,FP32算力达到47.5TFLOPS。
四) 国产加速芯片:自主创新与场景突破
在全球算力竞赛与供应链安全双重驱动下,中国数据中心加速芯片厂商通过架构创新与生态协同,正逐步构建起差异化竞争力。国产芯片凭借自主可控、场景定制和绿色算力等优势,在AI训练、推理及特定领域加速场景实现突破。
华为昇腾:昇腾910B(训练)和昇腾310(推理)构成全栈方案。其中,昇腾910B采用达芬奇架构,算力达320TOPS(INT8),支持MindSpore框架。昇腾310基于达芬奇架构的3D Cube矩阵计算引擎,针对卷积、矩阵运算优化,支持INT8/INT16/FP16混合精度计算,在保持精度的同时提升吞吐量,INT8算力达到了16 TOPS,功耗仅为8W。
摩尔线程:MTT S3000基于摩尔线程MUSA架构,包含了4096个MUSA流处理核心及128个专用张量计算核心,晶体管规模达到220亿,兼容了PyTorch、TensorFlow、百度飞桨(PaddlePaddle)、计图(Jittor)等多种主流深度学习框架,并实现了对Transformer、CNN、RNN等数十类AI模型的加速。
寒武纪:寒武纪面向数据中心的加速芯片主要有MLU370系列、MLU290系列和MLU-X1000系列组成。其中,MLU370是寒武纪推出的第三代云端AI芯片,具有高性能、高能效比的特点。它采用了7nm先进工艺和全新MLUarch03架构,算力最高可达256TOPS(INT8)。MLU290系列芯片主要适用于需要高性能AI计算的数据中心场景,能够支持各种AI应用的训练和推理任务。MLU-X1000系列主要面向大规模数据中心和云计算场景,能够支持复杂的人工智能处理任务和高吞吐量的数据计算。
壁仞科技:BR100系列芯片是壁仞科技发布的通用GPU芯片,采用Chiplet(芯粒)技术,新一代主机接口PCIe 5.0,并支持CXL互连协议。BR100系列芯片的16位浮点算力达到1000T以上,8位定点算力达到2000T以上,单芯片峰值算力达到PFlops(1PFlops等于1000万亿次浮点指令/秒)级别,目前已经在大数据分析、自动驾驶、医疗健康、生命科学等得到应用。
尽管在通用计算生态仍存差距,但在视频处理、隐私计算等垂直领域已形成代际优势。随着RISC-V、Chiplet等开放架构的成熟,国产加速芯片将迎来高速发展期。
三、 数据中心加速卡未来的发展趋势
随着技术的不断进步和市场的规范化,数据中心加速卡未来将向技术融合、定制化、软硬协同,智能化等方向发展。
首先,通过技术融合加速卡可以实现更高的计算效率和更低的功耗,满足不同应用场景的需求。其次,随着定制化需求的增加,数据中心加速卡市场可能会呈现出更加多元化的竞争格局。厂商根据用户需求提供定制化的加速卡解决方案,以满足不同应用场景的需求。再次,随着人工智能技术的普及,未来的数据中心加速卡可能会集成更多的智能算法,实现更高效的资源管理和数据处理。
除了加速卡硬件本身之外,未来数据中心加速卡的发展还将更加注重软件与硬件的协同优化。通过优化软件算法和硬件架构,实现更高的计算效率和更低的功耗。
当然,数据中心加速卡市场未来也将更加注重生态系统的建设。通过资源共享与技术交流,加速新技术的研发和应用,形成良好的生态系统,推动整个产业的健康发展。
写在最后:
随着大模型时代的到来,对数据中心算力提出了更高的要求,如何有效提高数据中心的算力成为大家关注的热点。“CPU+GPU+DPU+TPU”的异构计算模式不仅能够带来更高的算力,而且还能够有效地减少数据中心的能耗问题。不难看出,随着异构计算时代的开启,加速卡将不断优化性能,提升能效比,并集成更多智能功能,以此来进一步提高数据中心的效率、可靠性和安全性。