1. 诱人的CPU
如果没有几个吸睛的新CPU,任何关于数据中心芯片的总结都是不完整的。随着英特尔、AMD和Ampere的新芯片的出现,有很多东西值得兴奋。
英特尔预计将率先登场,部分原因是其即将推出的Sapphire Rapids Xeon可扩展处理器在最后一刻被推迟。新的至强处理器定于今年年初发布,拥有许多诱人的新功能,包括全新的多芯片架构,英特尔最先进的10纳米制造工艺,以及片上的高带宽内存。
发布会上,AMD对基于Zen 3的EPYC Milan处理器进行了更新,该公司声称,在 "目标技术计算工作负载 "中,其性能可提高50%。然而,AMD的重要发布要到2022年下半年才会发生,届时将推出代号为Genoa的EPYC 4。
虽然对AMD的下一代数据中心芯片知之甚少,但我们确实知道它将基于TSMC的5纳米制造工艺,拥有多达96个内核。
AMD首席执行官Lisa Su在去年11月的一次主题演讲中说:"当它被推出时,我们预计Genoa将成为世界上性能最高的通用计算处理器。
新兴的基于Arm的数据中心芯片制造商Ampere也不甘示弱,将在今年晚些时候推出其首个基于完全定制内核架构的芯片。该芯片制造商的上一代Altra处理器是基于Arm Neoverse内核设计的,在300瓦的功率范围内实现了多达128个内核。
"这个下一代部件将比我们的Altra Max的性能显著提高。它有更多的内核,是一个新的平台,"Ampere公司首席产品官Jeff Wittich在早些时候的一次采访中透漏。
与AMD一样,Ampere即将推出的芯片将采用5纳米制造工艺。然而这些芯片将提供更多的核心数量。虽然Ampere公司没有说该芯片将有多少个内核,但我们可以预计它将超过Ampere公司Altra Max芯片中的128个。
2. 大量快如闪电的内存
所有即将推出的CPU都增加了对DDR5内存的支持。虽然这听起来并不那么令人兴奋,但对于运行大量内存密集型工作负载的数据中心来说,这是一个福音。
与以往的升级一样,DDR5将具有比DDR4更高的单模块容量,同时将内存传输率大幅提高。与上一代内存的不同,DDR5还标志着将片上纠错代码作为一项标准功能,并集成了电源管理以提高效率。
为了让你了解DDR5有多大的升级,世界上最大的内存制造商之一三星在2021年的Hot Chips大会上预告了512GB的模块,传输速度达到7Gb/s。
这意味着我们可以在不久之后看到服务器的板载内存达到8甚至16terabytes。相比之下,大多数服务器上的DDR4最高只有128gigabytes,每个模块3.2Gb/s。
3. PCIe 5.0,CXL打开了可组合基础设施的大门
下一代CPU还引入了PCIe Gen.5.0,使外围设备的可用带宽增加了一倍,是上一代产品的两倍。
上个月,三星宣布其PM1743 PCIe 5.0固态硬盘的读取速度达到每秒13gigabyte,写入速度达到每秒6.6gigabytes,输入/输出操作达到25万次。这是一个巨大的性能提升,这将使人工智能工作负载的卸载速度大大加快,从而使人工智能加速器和NVMe存储的速度加快。
除了更高性能的存储和对带宽要求很高的AI工作负载,PCIe 5.0代还引入了Compute Express Link(CXL),使CPU和外围设备之间有了直接的内存接口。
CXL的早期应用之一将是实现大型持久性内存池,不需要像英特尔的Optane那样的专有接口。相反,系统集成商和OEM厂商可以利用每个现代主板上的标准PCIe接口。
除了持久性内存,CXL联盟还在关注其他外围设备的机会,包括GPU、FPGA和以太网网卡。从理论上讲,CXL可以通过高速以太网实现直接的内存接口,使数据中心运营商能够在没有明显性能瓶颈的情况下组成资源池。
4. 400G网络的到来
说到网络,PCIe 5.0对于下一代网卡和DPU也是必不可少的,其中有几个计划在今年下半年推出。
随着网络带宽的增加,PCIe现在成为了限制因素。今天最好的网卡仅有双端口100Gb/s,这足以使PCIe Gen.4.0 16x接口完全饱和。
虽然PCIe Gen 5.0实现的400 Gb/s的吞吐量对于一台服务器来说可能听起来有些过剩,但这并没有阻止网络供应商进一步抬高边界。
Nvidia本月推出的ConnectX-7 NIC,是首批利用这些带宽进展实现一对200Gb/s接口的产品。同时,Nvidia的BlueField-3 DPU将于5月推出,它建立在ConnectX-7的基础上,面向更广泛的输入/输出(I/O)工作负载,如网络、安全、存储和虚拟化。
Nvidia并不是今年推出高吞吐量DPU的唯一供应商。Marvell公司的Octeon 10 DPU预计将在2022年下半年推出,拥有PCIe 5.0,聚合带宽高达400Gb/s。
5. 大量的人工智能加速器
Nvidia的A100 GPU在2021年主导了高性能计算(HPC)领域,该芯片为今天Top500和Green500中许多最强大的超级计算机提供动力。
然而,在去年11月AMD推出第二代Instinct GPU之后,这种领先地位已经受到威胁。
AMD的MI200系列具有两个GPU芯片,基于6纳米制造工艺,共有580亿个晶体管。这意味着有220个计算单元和880个矩阵核心,比上一代MI100增加了1.8倍。
GPU由多达8个封装的高带宽内存模块提供,总内存为128G。
从纸面上看,GPU应该让AMD在人工智能和HPC领域超越Nvidia。AMD公司数据中心和嵌入式解决方案高级副总裁兼总经理Forrest Norrod声称,MI200在高精度浮点64计算中比Nvidia的A100快490%。"他说:"这对于需要最高精度的HPC工作负载至关重要,比如天气预报。“
美国能源部的橡树岭国家实验室计划在其即将推出的Frontier超级计算机中使用新的GPU。而且,假设正在共同开发该系统的惠普企业公司(HPE)不会再次意外地擦除研究数据,该超级计算机预计在今年年初上线时将提供1.5 exaFLOPs的计算能力。
当然,现在还不要把Nvidia算进去。你可以期待身着标志性皮夹克的Nvidia首席执行官Jensen Huang,在今年晚些时候推出其Ampere Next架构来回击。
不幸的是,我们至少要等到4月份才能看到绿队的更新。