基于NVIDIA Ampere架构的GPU正式发布,AI训练和推理性能提高20倍

原创
服务器 芯片
NVIDIA Ampere架构采用了全新的7nm制造工艺,包含超过540亿个晶体管,这使其成为全球最大的7纳米处理器。此外,Ampere通过优化自身架构,不但具备更高的性能(NVIDIA发布的A100 GPU较一代产品,在AI训练和推理性能上提高20倍),而且能耗比更高,并且适合更多的场景应用。

  【51CTO.com原创稿件】在新基建的大背景下,5G、AI、大数据、物联网等新兴技术将加快落地,推动着经济模式向智能经济转变。面对新技术的快速应用以及高速增长的数据总量,数据中心面临着巨大的算力、存储、网络等挑战,这也成为企业在数字化转型过程中首要解决的难题。

  在今年5月14日召开的GTC大会上,NVIDIA正式宣布首款基于NVIDIA Ampere架构的GPU ——NVIDIA A100全面投产并已向全球客户交付,这也意味着NVIDIA面向AI、边缘计算推出的Ampere架构正式投入到生产环境中。

  采用7nm工艺的NVIDIA Ampere架构,性能提升20%

  早在GTC之前,关于NVIDIA Ampere架构的一些技术参数就开始陆续流出,例如采用7nm制造工艺、架构优化升级、能效比更高等等。GTC之后,Ampere架构的所有技术优势全面展现在眼前。根据资料显示,NVIDIA Ampere架构采用了全新的7nm制造工艺,包含超过540亿个晶体管,这使其成为全球最大的7纳米处理器。此外,Ampere通过优化自身架构,不但具备更高的性能(NVIDIA发布的A100 GPU较一代产品,在AI训练和推理性能上提高20倍),而且能耗比更高,并且适合更多的场景应用。

  从技术规格上来看,NVIDIA A100 GPU采用了NVIDIA Ampere架构,采用了第三代Tensor Core核心,加入了NVIDIA专为AI开发的全新TF32,能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,Tensor Core核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。

  此外,A100 GPU采用了一种全新技术功能:多实例GPU -MIG,能够将单个A100 GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。另外,A100 GPU还采用了第三代NVIDIA NVLink ,使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。而结构化稀疏技术能够让性能提升了一倍。

  正是借助以上技术,使得NVIDIA A100成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

  除了核心架构的升级之外,采用了Ampere架构 的A100还在软件层面进行了优化。据了解,NVIDIA发布了多个软件堆栈更新,使应用程序开发者能够充分发挥A100 GPU创新技术的性能。这些更新包括了50多个新版本CUDA-X库,可用于加速图形、模拟和AI;CUDA 11;多模态对话式AI服务框架NVIDIA Jarvis;深度推荐应用框架NVIDIA Merlin;以及NVIDIA HPC SDK,其中包括能够帮助HPC开发者调试和优化A100代码的编译器、库和工具。

  面向多种生产环境,Ampere进一步扩展应用场景

  在不断提高产品性能的同时,NVIDIA也在积极的扩展更多的应用场景,将Ampere架构应用到更多的场景中。据记者了解,采用Ampere架构的GPU除了能够满足AI训练和推理之外,NVIDIA还将其应用于边缘计算、超级计算机等领域,并且获得了不错的成绩。  在边缘计算应用场景中,NVIDIA推出了EGX A100,它是首个基于NVIDIA Ampere架构的边缘AI产品,企业机构可将EGX A100添加到其服务器中,从而实时处理和保护来自边缘传感器的海量流式数据。

  据介绍,EGX A100结合了NVIDIA Ampere架构所具有的计算性能与NVIDIAMellanox ConnectX-6 Dx SmartNIC所具备的网络加速和关键性安全功能,能将标准型和专用型的边缘服务器转变为极具安全性的云原生AI超级计算机,为在边缘运行AI推理和5G应用等各类计算密集型工作负载提供了最大的性能飞跃,使EGX A100可以实时处理来自摄像头和其他物联网传感器的大量流式数据,从而更快地获得洞见并提高业务效率。

  数据显示,借助NVIDIA Mellanox ConnectX-6 Dx板载网卡,EGX A100可以每秒接收高达200 Gb的数据并将其直接发送到GPU内存以进行AI或5G信号处理。借助于NVIDIA Mellanox为电信领域带来精准时钟调度5G无线报文的传输技术(5T for 5G)EGX A100作为一个云原生软件定义加速器,可以处理对延迟最敏感的5G应用,这为在一个行动点(如:商店、医院和工厂车间)做出智能实时决策提供了高性能AI和5G平台。

  除了边缘计算场景之外,MVIDIA还推出了采用Ampere架构的DGX A100,并以此构建了全球先进的AI系统,帮助企业机构以前所未有的速度解决复杂问题,同时为跨分析、训练和推理的AI计算力交付带来强大的弹性和灵活性。

  去年,NVIDIA基于多台DGX系统组合构建了DGX SuperPOD,该超计算机以远低于一般超级计算机的成本和能耗跻身性能世界前20之列。现在,NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。

  据介绍,SuperPOD基于NVIDIA DGX A100系统和NVIDIA Mellanox网络架构构建,证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。

  除了以上两个场景应用之外,在其它领域也开始广泛应用。例如在阿里云、AWS、百度智能云、Google Cloud、Microsoft Azure 、甲骨文和腾讯云上,它们正在计划提供基于A100的服务。

  正如NVIDIA创始人兼首席执行官黄仁勋在GTC上所言,物联网和AI的融合已开启了“万物智能”革命。就像手机行业通过智能手机为用户提供智能服务一样,大型行业现在也可以为用户提供智能互联的产品和服务。NVIDIA EGX边缘AI平台能够将标准服务器转变为一个小型的云原生、安全型AI数据中心。借助于我们的AI应用框架,企业可以构建从智能零售到机器人工厂再到自动化呼叫中心等各类AI服务。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:张诚 来源: 51cto
相关推荐

2020-07-17 17:54:00

AI服务器

2021-09-17 12:54:05

AI 数据人工智能

2023-11-30 18:25:57

数据训练

2020-11-22 14:41:08

Ampere GPUNVIDIA

2019-09-25 14:34:15

AI 数据人工智能

2019-10-14 09:58:00

机器学习人工智能计算机

2021-09-23 11:44:54

NVIDIA

2022-09-26 16:58:18

英特尔

2023-12-19 13:32:00

模型数据

2023-09-10 12:37:38

模型英伟达

2023-05-12 18:42:13

得物AI平台

2024-01-09 12:58:21

PC性能NVIDIA

2019-01-28 14:42:52

NVIDIA

2020-04-13 09:50:23

阿里巴巴推理计算

2020-10-09 11:08:08

NVIDIA

2023-03-22 13:53:26

芯片英伟达

2023-09-11 09:37:58

开源软件套AI模型

2024-01-02 14:07:00

2019-09-25 15:29:41

阿里云芯片

2020-10-23 14:05:39

AI 服务器测试
点赞
收藏

51CTO技术栈公众号