NVIDIA联合OEM合作伙伴参与MLPerf测试：以GPU加速系统，引领全球最快AI模型训练-51CTO.COM

　　【51CTO.com原创稿件】人工智能、大数据等新技术在推动企业快速发展的同时，也对算力提出了更高的要求。如何提高数据中心的算力，满足业务需求，成为摆在企业面前的主要挑战。为此，NVIDIA不断优化产品组合，并联合生态合作伙伴推出面向AI的诸多产品组合，进一步提高数据中心的算力。

　　近期，NVIDIA DGX和戴尔、富士通、技嘉、浪潮、联想、宁畅和超微等公司所提供的各种搭载NVIDIA技术的系统，在最新MLPerf基准测试中取得了出色成绩，进一步用实力证实其在高性能计算领域的绝对优势。

　　以GPU加速系统，实现全球最快AI模型训练速度

　　在最新MLPerf测试中，来自全球的七家公司对至少十几款市售系统进行了测试，其中大部分为NVIDIA认证系统。除NVIDIA之外，戴尔、富士通、技嘉、浪潮、联想、宁畅、超微也参与了本轮测试，使用NVIDIA A100 Tensor Core GPU实现了业内领先的神经网络训练结果。

　　MLPerf是一系列测试机器学习性能表现的标准。它通过在一个标准目标下训练机器学习模型的时间，作为一套系统性能的测量标准。其中训练任务包括图像识别、物体探测、NLP自然语言处理以及强化学习等。

　　根据MLPerf发布的最新结果，NVIDIA合作伙伴提供的GPU加速系统实现了全球最快的AI模型训练速度。

　　据了解，在基准测试中，只有NVIDIA及其合作伙伴运行了所有八类工作负载，占所有提交的四分之三以上，而且取得了非常优秀的成绩。

　　与去年的分数相比，NVIDIA在性能上提高了多达3.5倍。而对于需要最高性能的大规模工作，NVIDIA创纪录地调集了4096个GPU的资源，超越了所有其他参与者。

　　虽然取得了不俗的成绩，但对于NVIDIA而言，这也仅仅是第四次参与测试。当然，对于NVIDIA A100 GPU，这也仅仅是第二次参与MLPerf测试。

　　据了解， NVIDIA工程师找到了一种使用CUDA Graphs启动完整神经网络模型的方法。CUDA Graphs是一个涵盖NVIDIA CUDA操作及其依赖项的软件包。它消除了过去的测试中，AI模型由大量独立的内核组成而导致的CPU瓶颈。

　　此外，在大规模测试中使用的是NVIDIA SHARP。该软件能够在网络交换机内整合多项通信工作，从而减少网络流量和等待CPU的时间。

　　CUDA Graphs和SHARP的结合，使数据中心能够使用有史以来最多的GPU进行训练。在诸如自然语言处理等很多领域，随着AI模型参数增加到数十亿的量级，这样的组合恰能提供所需的强大能力。

　　最新A100 GPU上的内存带宽增加了近30%，达到2TB/s以上，这也带来了其他许多方面的提升。

　　性能+敏捷，夯实人工智能应用根基

　　对于AI来讲，不仅仅需要强大的性能表现，而且对于平台的灵活性和敏捷性也有着更高的要求。这是因为，随着用户对于性能的不断追求，需要数据中心集群具备较强的灵活性，以快速对计算集群进行扩展，满足业务需求。

　　在性能方面，通过最新一轮MLPerf基准测试结果不难发现，NVIDIA AI平台在最短的时间内完成了模型训练，在商用提交类别的所有八项基准测试中都创下了性能纪录。

基于 NVIDIA DGX SuperPOD 的Selene在商用系统类别的所有八项测试中均创下纪录

　　此外，NVIDIA还在Selene上进行了大规模测试。根据最新全球TOP 500榜单，Selene是全球最快的商用AI超级计算机。这台超级计算机与榜单上的其他十几台系统均基于NVIDIA DGX SuperPOD架构。

　　在芯片对比中，NVIDIA及其合作伙伴在最新商用系统测试的所有八项基准测试中都创造了纪录。

A100 GPU在商用系统类别的所有八项测试中均创下纪录

　　总体而言，从下图所示的结果能够看出，NVIDIA在两年半的时间内将性能提高了多达6.5倍，充分证明了包括GPU、系统和软件在内的全栈式NVIDIA平台的实力。

NVIDIA AI 通过全栈的改进，持续带动性能提升

　　除了拥有出色的性能，在数据中心集群扩展方面， NVIDIA也有着非常强大的核心优势。

　　为了方便集群的扩展，NVIDIA打造了超强深度学习训练性能的DGX-1AI超级计算机，融合多种有助于多节点扩展的系统技术，并基于实践经验，总结出构建多节点系统的建议和多种参考架构设计方案，可协助IT管理员以更高的成本效益构建高性能多节点系统。

　　NVIDIA在DGX-1的节点内GPU之间，采用超高带宽通路NVLink，相比基于PCIeGen3的传统互连，速度可提升10倍。此外，NVIDIA还为每个系统配备4个InfinBand100Gb/秒扩展数据速率(EDR)端口，并搭配软件技术提供GPU间的优化通信方法。

　　为了帮助数据中心工作人员进一步节省构建AI基础设施所需的时间和试错成本，NVIDIA通过与领先的存储、网络交换技术提供商合作，提出一种经优化的数据中心机架——DGXPOD交付节点(PointofDelivery)。

　　基于此，NVIDIA将其超大规模数据中心AI部署经验转化为可复制方案，将包含多台DGX-1、存储服务器、网络交换机等设备的最佳实践方案，融入一系列DGXPOD数据中心交付节点设计参考架构中。

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】