【51CTO.com原创稿件】AI和深度学习技术的应用落地对算力提出了更高的要求,面对着数以万计的联网设备和每秒数十亿到数万亿次的运算,传统的数据中心正在面临的巨大的挑战,已经难以满足数据速率的指数级增长、快速变化的安全协议以及新的网络和连接要求。作为专用领域的计算产品,FPGA则很好的解决了这一问题,其强大的算力和较低的功耗,能够在设备的终端完成数据的运算,降低了数据中心的计算压力。作为FPGA行业的优秀厂商之一,Achronix已经在这一领域耕耘了多年。近期,Achronix再度发力,推出了第四代eFPGA产品Speedcore Gen4 eFPGA IP,除了TSMC 7nm工艺所产生的对标联想外,其在设计方法上也走了更多。
算力推动芯片的变革
这是一个万物互联的时代,物联网的快速普及,固定和无线网络带宽的急剧增加,加上处理能力向边缘等进行重新分配,以及数十亿物联网设备的出现,将给传统网络和计算基础设施带来压力。这种新的处理范式意味着每秒将有数十亿到数万亿次的运算。传统云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数级增长、快速变化的安全协议、以及许多新的网络和连接要求。传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因而它们需要硬件加速器,通常是可重新编程的硬件加速器,用来预处理和卸载计算,以便提高系统的整体计算性能。经过优化后的Speedcore Gen4 eFPGA已经可以满足这些应用需求。
Achronix 公司市场营销副总裁Steve Mensor在11月底的媒体沟通会上曾表示,物联网的快速发展给FPGA芯片带来了巨大的机会,随着联网设备的增长,如保解决边缘计算的难题,降低数据中心的压力,是FPGA企业必须深入思考的问题。他表示,不同的应用需要不同的芯片来完成,如计算加速要求高能耗比,5G则要求低功耗高性能的可编程芯片,计算存储需要低功耗低成本,网络加速和智能卡则需要用于CPU卸载的高速率加速器,而汽车驾驶则需要低成本和低功耗的硬件加速。“
Mensor表示,相比较通过计算的芯片,GPU和FPGA更适合AI/ML的这些多元应用场景。当然,GPU更适合云端计算,FPGA则更适用于边缘计算。”
专用AI/ML设计的专用加速芯片
Speedcore Gen4 eFPGA是一个完整的人工智能/机器学习计算引擎,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件(Cyclical Register File),它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供***的处理性能、每秒***的操作次数和***的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择***精度来实现精度和性能的均衡。
为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。
Mensor告诉我们,增强的逻辑单元、Speedcore下一代的路由结构、AI/ML专用的DSP单元MLP三大方面的优化,让Speedcore Gen4 eFPGA的性能有了跨越式的提高。
数据显示,与上一代Speedcore产品相比,新的Speedcore Gen4架构实现了多项创新,从而可将系统整体性能提高60%。其中查找表的所有方面都得到了增强,以支持使用最少的资源来实现各种功能,从而可缩减面积和功耗并提高性能。其中的更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接。
据Mensor介绍,对于已量产的Speedcore架构,Achronix可在6周内为客户配置并提供Speedcore eFPGA IP和支持文件。采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,但是芯片设计企业现已可以联系Achronix,以获得支持其特定需求的Speedcore Gen4实例。Achronix还将于2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】