英特尔发布多款新技术与新产品:为未来数据中心提速增效

原创
服务器 数据中心
在数据中心领域发布了代号为“Sapphire Rapids” 的下一代英特尔至强可扩展处理器、基于Xe HPC架构的Ponte Vecchio以及首个ASIC IPU:Mount Evans。

  【51CTO.com原创稿件】在上周召开的2021年英特尔架构日上,英特尔发布多款全新的产品。其中,在数据中心领域发布了代号为“Sapphire Rapids” 的下一代英特尔至强可扩展处理器、基于Xe HPC架构的Ponte Vecchio以及首个ASIC IPU:Mount Evans。作为全球半导体领域最大的IDM厂商,英特尔的混合计算架构、先进工艺、封装能力和IDM2.0规划都展现出在市场中的领导者地位。

  代号为“Sapphire Rapids” 的下一代英特尔至强可扩展处理器

  在2021年英特尔架构日上,英特尔正式发布了下一代英特尔至强可扩展处理器的架构,代号为“Sapphire Rapids”。

  英特尔公司中国区数据平台集团总经理王飞表示,与上一代相比,Sapphire Rapids有着非常巨大的进步,能够在不断变化且要求日益增高的数据中心使用中提供可观的计算性能,并对工作负载进行优化,以在云、微服务和AI等弹性计算模型上提供高性能。

  资料显示,Sapphire Rapids基于Intel 7制程工艺技术,采用英特尔全新的性能核微架构,该架构旨在提高速度,突破低时延和单线程应用性能的极限。

  Sapphire Rapids的核心,是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。Sapphire Rapids提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽。

  Sapphire Rapids提供业界广泛的数据中心相关加速器,包括新的指令集架构和集成IP,以在各种客户工作负载和使用中提升性能。Sapphire Rapids内置了英特尔加速器接口架构指令集(AIA),支持对加速器和设备的有效调度、同步和信号传递。此外,还采用了英特尔高级矩阵扩展(AMX),引入的新加速引擎,可为深度学习算法核心的Tensor处理提供大幅加速。其可以在每个周期内进行2000次INT8运算和1000次BFP16运算,实现计算能力的大幅提升。

  Sapphire Rapids还加入了英特尔数据流加速器(DSA),旨在卸载最常见的数据移动任务,这些任务会导致数据中心规模部署中的开销。

  王飞表示,得益于英特尔的EMIB多晶片互连封装技术和先进网格架构,Sapphire Rapids具有显著的可扩展性,同时仍保持单晶片CPU接口的优势,为下一代数据中心处理器树立了标准。

  基于Xe HPC架构的Ponte Vecchio

  在架构日上,英特尔发布了面向数据中心和超算领域的Xe HPC高性能计算架构,其基于Xe核心(Xe Core),采用了8个512-bit矢量引擎、8个4096-bit矩阵引擎。矢量引擎每时钟周期可执行256个FP32、256个FP64、512个FP16等数据操作,矩阵引擎则每时钟周期支持2048个FP32、4096个FP64、4096个BF16、8192个INT8。此外,每个Xe核心集成了目前业内最大的512KB一级数据缓存,能够通过软件配置作为暂存区使用。

  Xe核心的上一层级叫做“切片”(Slice),每个切片集成多达16个Xe核心,四倍于Xe HPG渲染切片的规模,同时还有8MB一级缓存、16个光追单元、一个硬件上下文(Hardware Context)单元,其中光追支持光线遍历、边界框相交、三角形相交,提供固定函数计算。切片的上一级则是“堆栈”(Stack),至此才算一个完整的GPU。一个堆栈包含4个切片,因此总计64个Xe核心、64个光追单元。同时,堆栈内还有大规模二级缓存、4个HBM2e内存控制器、1个媒体引擎、8个Xe链路,以及拷贝引擎、PCle控制器。

  Xe HPC架构由于支持多堆栈设计,借助EMIB封装和堆栈间互连通道,能够很好的保证堆栈之间的内存一致性。另外,不同的Xe HPC GPU之间通过Xe链路互连,支持最多8颗并行,算力大幅提升。

  作为基于Xe HPC架构的首款产品,Ponte Vecchio采用了全新的验证方法、软件、可靠性方法、信号完整性机制、互连、供电、封装、I/O架构、内存架构、IP架构、SoC架构。

  在集成晶体管数量上,Ponte Vecchio突破1000亿个,使用5种不同的制造工艺,在内部封装了多达47个不同的单元(Tile),包括计算单元、Rambo缓存单元、Foveros封装单元、基础单元、HBM单元、Xe链路单元、EMIB单等等。

  其中,基础单元采用Intel 7工艺、Foveros封装,面积达640平方毫米,集成了多达144MB二级缓存。Xe链路单元是台积电N7 7nm工艺制造,负责不同GPU之间的连接,每个单元配备8条,实现了最高90G Serdes,可以满足“极光”(Aurora)这样百亿亿次级级超级计算机的需求。

  目前,Ponte Vecchio目前处于A0版本阶段(一般到A1就投入量产),成功运行了数百个工作负载,实测FP32吞吐性能超过45TFlops,Memory Fabric缓存带宽超过5TB/s,互连带宽超过2TB/s。

  英特尔技术专家表示,未来数据中心会越来越向微服务架构转变,为异构计算以及AI计算加速,这是英特尔的核心竞争力。Ponte Vecchio是一个通用计算加速卡,基于Xe架构,拥有非常复杂的设计,主要针对HPC以及AI训练和推理,目标是让算力密度达到业界最高水平,是英特尔未来非常重要的战略方向。

  据英特尔技术专家介绍,Sapphire Rapids预计将于2022年第一季度投产,并于2022年第二季度开始提高产能,Ponte Vecchio 也将于 2022 年面向 HPC 和 AI 市场发布。

  英特尔首个ASIC IPU:Mount Evans

  为了CPU的工作负载,减轻用户的开支,英特尔还发布了首个ASIC IPU:Mount Evans。

  据介绍,Mount Evans融合了多代FPGASmartNIC的经验,能够提供高性能网络和存储虚拟化卸载,同时保持高度控制。除此之外,它使用了硬件加速的NVMe存储接口,采用英特尔高性能Quick Assist技术部署高级加密和压缩加速,并提供业界一流的可编程数据包处理引擎,用户可以使用现有普遍部署的DPDK、SPDK等软件环境进行编程,并且可以采用英特尔Barefoot Switch部门开创的P4编程语言来配置管线。

  会上,英特尔还推出了N6000加速开发平台,代号为“Arrow Creek”,是专为搭载至强服务器设计的SmartNIC。

  N6000加速开发平台功耗、效率和性能方面处于行业领先地位的英特尔Agilex FPGA,用于高性能的100GB网络加速的英特尔以太网800系列控制器。它支持多种基础设施工作负载,使通信服务提供商(CoSP)能够提供灵活的加速工作负载,如Juniper Contrail、OVS和SRv6,它以英特尔PAC-N3000的成功为基础,该产品已在部分业界一流的CoSP中部署。

  英特尔技术专家表示,IPU是为了适应数据中心多租户微服务架构的演进而提供的加速处理器,英特尔主打功能是把加/解密,数据压缩/解压缩都尽量放到IPU上来处理,让这部分功能从至强平台上卸载下来。据介绍,IPU是SmartNIC的演进,不仅会提供网络功能,还会增加更多的基础设施能力。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

 

责任编辑:张诚 来源: 51cto
相关推荐

2009-02-28 22:13:18

万亿次英特尔数据中心

2013-09-19 13:39:32

英特尔技术云数据中心

2013-09-12 10:50:14

英特尔机柜式架构

2010-04-14 10:34:11

IDF2010英特尔数据中心

2019-04-03 15:31:02

英特尔数据中心新至强

2014-05-19 11:25:28

Teradata 大数据天睿

2011-06-08 10:16:20

惠普英特尔

2010-06-17 15:40:40

英特尔数据中心架构

2013-08-06 09:33:28

英特尔数据中心淘汰

2013-09-09 11:25:34

英特尔IDF凌动

2012-01-18 09:26:26

英特尔开放数据中心云计算

2013-07-26 09:32:38

IDF2013旧金山英特尔

2011-05-23 10:45:08

英特尔数据中心

2013-03-27 10:29:48

英特尔路线图新品

2013-09-19 13:26:56

英特尔数据中心服务需求

2021-10-29 05:37:37

英特尔谷歌云数据中心芯片

2010-04-29 10:42:08

数据中心能效策略

2012-07-05 10:23:27

英特尔实验室

2010-05-24 09:33:57

Anaphase

2011-07-11 13:42:30

英特尔传感器数据中心
点赞
收藏

51CTO技术栈公众号