【51CTO.com原创稿件】6月19日,英特尔数据创新峰会暨新品发布会如期举行。受新冠病毒疫情影响,本次发布会采用了线上直播的形式进行。会上,英特尔全球同步发布第三代至强可扩展处理器。通过前两代产品的发布周期不难发现,第三代至强可扩展处理器的发布节奏比前几代要快了许多,这不仅能够让用户受益,也有助于推动行业的快速迭代。
加入Bfloat16数据格式,AI能力全面强化
从第一代至强可扩展处理器开始,英特尔就开始重视CPU的AI能力。在第一代至强可扩展处理器上,英特尔加入了AVX-512指令,优化了FP32计算能力。在2019年发布的第二代可扩展处理器中,引入了深度学习加速技术(Intel Deep Learning Boost),提升了Int8推理能力。这次,英特尔在第三代至强可扩展处理器在深度学习加速技术中加入了Bfloat16数据格式,进一步增强了AI能力。
据介绍,BFloat最早出现在谷歌的TPU中,是一种越来越流行的加速机器学习的浮点格式,英特尔和ARM以及许多新的AI芯片公司也都将其视为AI加速架构的核心功能之一,可见其重要性。对比BFloat16与FP32,BFloat16大多数情况下有FP32的准确性,而效率要高于FP32,可以看做是FP32的改良版。
上图,是英特尔公布的第三代至强可扩展处理器在AI性能方面的成绩。可以看到,BFloat16的加入,让第三代可扩展处理器提升了训练和推理方面的能力, CPU在推理方面的提升更多一些。与第二代可扩展处理器上使用的FP32格式相比,训练性能最高能提升1.96倍,推理性能最高能提升1.9倍。另外,与上代相比,在图像分类的训练性能提升了1.93倍,推理性能提升了1.7倍。
此次发布的第三代至强可扩展处理器包括白金8300系列,黄金6300和5300系列,其中8300系列有四路和八路两种配置,最高28核心,6内存通道,最大支持单路4.5TB内存,标称TDP最高达250瓦。黄金6300和5300系列只有四路配置。
第三代至强可扩展处理器主要强化了安全性和多核计算性能,适用于业务关键性负载,实时分析,机器学习以及混合云等工作负载。与五年前的平台相比,平均性能提升1.9倍,跑数据库的性能最高提升1.98倍,运行的虚拟机的数量达到前者的2.2倍,作为市场上唯一可提供八路x86服务器处理器的平台,至强同时还集成了深度学习加速的功能。
对开发者来说,需要极少的代码改动就能用上新平台,所以,目前包括阿里云,蚂蚁金服,腾讯云,东软等国内厂商都已经用上了带有Bfloat16的处理器,在推理和训练性能方面有近两倍的提升。
第二代傲腾持久内存亮相:性能更强,容量更高
在发布会上,英特尔还终于公布了新一代的傲腾产品——Optane Persistent Memory 200系列,以更好的提供对第三代至强可扩展处理器的支持。显然,与第三代至强可扩展处理器相比,傲腾产品的发布节奏明显要变得慢了很多。
据英特尔介绍,Optane Persistent Memory 200系列不但让容量变得更大,而且性能也更高。与上一代傲腾持久内存配合第二代至强可扩展处理器相比,性能方面带宽平均比上代提升了25%,与主流的NAND SSD相比,可以把数据传输访问效率提升225倍。
另外,在容量方面,单路最高能放6条512GB持久内存,最大3TB持久内存。200系列能在单路第三代至强可扩展处理器上提供最高4.5TB内存,包括3TB的傲腾持久内存和普通的DRAM内存,单条可用容量没变,有128GB,256GB和512GB三个型号,支持与普通DRAM公用内存插槽,支持两种内存的混插。
值得一提的是,傲腾持久内存掉电不丢数据,能加速系统故障之后重新启动的时间,未来可能会有越来越多的利用这一特性的应用出现。大容量内存的好处毋庸置疑,能更好地支持内存数据库,能减少服务器数量,进而还能减少License授权费用,对TCO的好处是许多用户选傲腾的重要原因。
当然,发布会上英特尔还发布了D7-P5500和P5600两个系列的NAND SSD,它采用了96层的TLC而不是QLC,接口协议方面,支持PCIe 4.0和NVMe 1.3c,4K随机读最高一百万IOPS,4K随机写IOPS最高能达到26万,延迟也有大幅降低,作为一款强调性能的产品,该系列SSD主要用在全闪存阵列当中,支持人工智能和大数据分析等IO密集型场景。2019年下半年以来,市场上开始出现PCIe 4.0 SSD,有消费级的,也有企业级的SSD,这次应该是英特尔首款PCIe 4.0 SSD,CPU平台也会有一些支持,英特尔平台对于PCIe 4.0的支持,标志着市场真正开始转向4.0了。
面向AI优化,新品FPGA-Stratix 10 NX大幅提升
除了第三代至强可扩展处理器和第二代傲腾持久内存这些英特尔的核心产品之外,会上还最新发布的FPGA-Stratix 10 NX FPGA新产品。由于英特尔在其中嵌入了AI优化模块AI Tensor,数据显示,与现有的Stratix 10 MX相比,前者的Int8计算性能要高出十五倍。
Stratix 10 NX在定位上是作为至强处理器的补充,专门针对特定应用提供定制,为了进一步优化性能,英特尔重新设计了计算模块(DSP模块)。在自然语言处理,在欺诈检测,在智慧城市等场景中,Stratix 10 NX的表现都几倍于英伟达显卡V100的表现。
尽管GPU是AI计算领域应用的最为广泛,但许多新的面向AI场景设计的芯片,包括Stratix 10 NX这类FPGA还有一些IPU之类的,在一些场景下的表现都优于GPU,AI芯片会随着AI计算负载的变化还继续演进。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】