当前,企业数字化转型已经进入深水区,人工智能、云计算、物联网等新兴技术飞速发展,在推动企业业务创新的同时,也对企业的数据中心提出了更高的要求,这也是数据中心建设正在呈现指数级增长的主要因素。
众所周知,构建高性能、高可用和高安全的新型数据中心,离不开网络的支持。在今年的NVIDIA GTC上,NVIDIA发布了诸多高性能数据中心产品和解决方案,这其中,就包括诸多新的网络产品。在近期NVIDIA组织的一次媒体沟通会上,NVIDIA网络专家崔岩和NVIDIA网络市场总监孟庆共同与媒体详细分享了NVIDIA最近发布的新产品,并详细解答了媒体的疑问。
NVIDIA网络专家崔岩
Spectrum-4以太网平台:加速大规模云原生应用
此次GTC上,NVIDIA正式对外发布了Spectrum-4以太网平台。
该平台由NVIDIA Spectrum-4交换机系列、ConnectX-7智能网卡、NVIDIA BlueField-3 DPU和DOCA数据中心基础设施软件组成,能够大幅加速大规模云原生应用。
据介绍,NVIDIA Spectrum-4基于TSMC 4N 工艺,包含1000多亿个晶体管 ,具有领先的能效和总拥有成本。凭借支持128个400GbE端口的 51.2Tbps聚合ASIC带宽,以及自适应路由选择和增强拥塞控制机制,Spectrum-4优化了基于融合以太网的RoCE (RDMA over Converged Ethernet)网络架构,并显著提升了数据中心的应用速度。
根据NVIDIA公布的数据显示,作为全球首个 400Gbps 端到端网络平台,NVIDIA Spectrum-4 的交换吞吐量比前几代产品高出 4 倍,达到 51.2 Tbps,实现了纳秒级计时精度,相比普通毫秒级数据中心提升了五到六个数量级。此外,NVIDIA Spectrum-4还能够加速、简化和保护网络架构,与上一代产品相比,其每个端口的带宽提高了2倍,交换机数量减少到1/4 ,功耗降低了40%。
崔岩告诉记者,NVIDIA Spectrum-4具备自适应用路由的加速以太网,其基于拥塞的端口选择能够有效的实现负载均衡 ,从而减少尾部延迟;而采用的RoCE无序数据放置能够实现最高的效率,能够为超级计算带来更好的网络创新。
据介绍,在高效网络大规模加速Omniverse方面,使用1台Spectrum-4能够替代12台传统的交换机,简化128节点OVX SuperPOD连接且更加易于管理,更节省空间,更加绿色环保。
Spectrum-4以太网平台中,ConnectX-7智能网卡作为重要的组成部分,也带来了全新的性能提升。据崔岩介绍,ConnectX SmartNIC 内建的 NVIDIA ASAP2 技术,在加速软件定义网络的同时不会影响 CPU 效能;其新增加的NVM Express (NVMe) 与传输控制协议 (TCP) 加速功能,能够加强储存空间的效能,同时,ConnectX SmartNIC 提供创新硬件引擎,可利用内嵌加密/解密技术来卸除并加速安全性。
在这个平台当中,还加入了DOCA软件框架,它将 API 、驱动程序、库、示例代码、文档、服务和预打包容器结合在一起,以简化和加快 BlueField DPU 上每个数据中心节点上的应用程序开发和部署。据了解,DOCA 和 BlueField 共同创建了一个用于网络、安全、存储和基础架构管理的独立且安全的服务域,是实现零信任战略的理想选择。
崔岩表示,在高性能数据中心的建设中,对于网络的性能要求越来越高。面对人工智能、大数据分析等应用,由 Spectrum 交换机、BlueField DPU和 ConnectX 系列智能网卡 组成的 Spectrum 平台能够提高 AI 应用、数字孪生和云基础架构的性能和可扩展性,为现代数据中心带来极高的效率和可用性。他强调,凭借51.2 Tbps的吞吐量和 12.8Tbp 加密带宽,Spectrum-4 将成为市场上优秀的、高性能的、安全的端到端以太网网络平台。
NVIDIA OVX计算系统:专为大规模数字孪生模拟加速
作为元宇宙领域的大玩家,英伟达在今年 GTC 开发者大会上推出了一种新的工业数字孪生计算系统——OVX。
据了解,OVX的设计初衷是为数据中心的规模以物理精准的工业数字孪生模拟提供一个实时响应和支撑,提供数字工厂未来的虚拟城市、数字城市,甚至是虚拟世界、虚拟地球这样的复杂模拟,或者实时数字孪生需要的一系列软硬件、存储、网络、带宽、计算、算力的性能。
NVIDIA网络市场总监孟庆
根据NVIDIA网络市场总监孟庆的介绍,OVX服务器是NIVIDIA OVX计算系统中的重要组成部分,由8个NVIDIA A40 GPU、3个NVIDIA ConnectX-6 Dx 200Gbps网卡、1TB系统内存和16TB NVMe存储组成,专为满足Omniverse 数字孪生需求打造。
为了给大规模数字孪生模拟提供更高的性能,OVX计算系统还支持从由8台OVX服务器组成的单集群扩展到通过NVIDIA Spectrum-3交换架构连接的一个或多个 OVX SuperPOD(由32台OVX服务器组成)。
为了充分发挥多个GPU的性能,NVIDIA推出了NVLink技术,以此来实现GPU之间的直接互连,扩展服务器内多GPU输入/输出。本届GTC上,第四代 NVIDIA® NVLink® 技术正式发布,为多 GPU 系统配置提供高于以往 1.5 倍的带宽,以及增强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达 18 个 NVLink 连接,总带宽为 900 GB/s,是 PCIe 5.0 带宽的 7 倍。
除此之外,NVIDIA宣布推出NVIDIA NVLink Switch系统,借助NVLink Switch系统,可以将其扩展为一个巨大的拥有32个节点、256个GPU的DGX POD,都可借助4个端口光学收发器连接到NVLink Switch。
沟通会上,孟庆还介绍了NVIDIA最新发布的NVIDIA Quantum-2和NVIDIA H100 CNX 融合加速器。据了解,NVIDIA Quantum-2 是一个 400Gbps InfiniBand 网络平台,由 NVIDIA Quantum-2 交换机、ConnectX-7 网络适配器、BlueField-3 数据处理器 (DPU) 组成,以及所有支持新架构的软件。在云原生技术的支持下,NVIDIA Quantum-2提供了每秒 400 吉比特的高性能和先进的多租户功能,可容纳更多用户。
孟庆表示,凭借 400Gbps,NVIDIA Quantum-2 InfiniBand 使网络速度加倍,网络端口数量增加三倍。它可将性能提升 3 倍,并将对数据中心结构交换机的需求减少 6 倍,同时降低数据中心功耗,并将数据中心空间减少 7%。
NVIDIA H100 CNX 融合加速器能够为由 GPU 驱动的 I/O 密集型工作负载提供出色的性能,它将 NVIDIA H100 Tensor Core GPU 的强大功能与 NVIDIA® ConnectX®-7 智能网卡的先进网络功能相结合,加速 GPU 驱动的输入/输出 (I/O) 密集型工作负载,例如企业数据中心中的分布式 AI 训练和边缘 5G 处理。
“NVIDIA发布的全新的系统、产品和解决方案,旨在为企业加速AI计算,创建逼真数字孪生所需的性能,帮助构建高性能的数据中心,加速企业创新与数字化转型。”采访最后,孟庆如是说。