数字时代的今天,AI已经成为加速业务创新,提高企业生产效率的核心技术。随着硬件和软件技术的飞速发展,AI正在从数据中心/云端走向以手机、PC等设备为主的终端,在为用户带来更好使用体验的同时,也对终端设备的芯片性能提出了更高的要求。
在近期举行的Arm技术媒体分享日活动中,Arm终端事业部智能手机市场高级总监Steve Raphael率先分享了对于终端设备上运行AI的一些看法。他表示,移动设备驱动创新,从生产力到娱乐应用等方方面面都在实现AI集成,新的用例和产品正在推动着人与人之间跨越语言障碍进行互动,这也预示着未来的发展方向。
Arm终端事业部智能手机市场高级总监Steve Raphael
Steve Raphael强调,AI再次重新定义了智能手机、笔记本电脑、可穿戴设备和数字电视等终端设备的“智能性”。Arm为最大的计算生态系统提供了普适应用,且为开发者提供了友好的指令集。因此,Arm是实现下一代计算性能需求的基石。
本次活动中,Arm详细为我们介绍了Arm终端计算子系统 (CSS)、CPU、GPU、软件产品的最新技术,并与参会媒体进行了深入的技术交流。
面向消费电子设备的全新计算子系统:Arm 终端 CSS
AI尤其是生成式AI正在为消费者带来全新的设备使用体验,同时也推动了芯片的发展。为此,Arm全新推出了面向消费电子设备的全新计算子系统,即Arm 终端CSS。作为 AI 体验的计算基础,它能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。
Arm 终端 CSS 囊括最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。该平台为Arm的合作伙伴提供了生产芯片的最快途径。通过物理实现,Arm 的合作伙伴能够利用前沿三纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。
Arm终端事业部产品管理总监Steve Hopper
据Arm终端事业部产品管理总监Steve Hopper介绍,Arm终端 CSS 聚焦于实现平台能力的重大飞跃,以继续突破高端移动体验的极限。在这一代产品中,Arm优先考虑四个关键领域:一是突破性能边界以处理要求苛刻的安卓实际工作负载;二是针对生成式 AI 以及更广泛的 AI/ML和计算机视觉工作负载提高性能;三是持续专注于实现两位数的系统能效提升;四是扩展平台以获得更高的性能点,满足新一代AI PC设备的需求(包括笔记本电脑和平板电脑)。
Arm终端CSS将物理实现与Armv9的AI优势结合在一起。Arm在2021年推出了专为性能和AI而设计的Armv9架构,并在过去几年中提高了在矢量加速、机器学习(ML)等领域的计算能力;增强系统的安全性和稳健性;更重要的是,增加了面向AI的功能。
通过现场展示的一组数据显示,在游戏峰值图形性能方面,与 2023 Arm全面计算解决方案 (TCS23) 相比,终端 CSS 为包括光线追踪在内的各种游戏内容平均实现了30%的性能提升。与去年基于FPGA的安卓旗舰配置相比,2+4+2的CPU集群配置将应用启动提速了约33%。通过集群升级,包括额外的 Cortex-X 核心,并将 L3 缓存增加到 16MB,性能提升了约 10%。根据 Speedometer 2.1基准测试的测量结果,得益于新的CPU集群和更新后的软件,Speedometer测量得分大幅提高了60%,为用户提供了更加出色的浏览体验。
Arm终端CSS还为CPU和GPU上的AI推理工作负载带来了显著的性能飞跃。Steve Hopper还展示了大语言模型 (LLM) 如何在移动设备上的Arm CPU进行本地运行。借助终端CSS,LLM将得以在Arm CPU上更好地运行,带来更快的响应速度。当运行Llama 3 LLM和Phi-3 LLM时,该平台可将词元 (Token)首次响应时间分别缩短42%以及46%。
除此之外,Arm终端CSS在AI网络性能、AI计算摄影和AI摄像头、能耗等方面均有巨大的提升。
Steve Hopper表示,Arm终端 CSS 是 Arm 最快的安卓平台,持续突破移动设备的边界。Arm设计了从IP到软件的整个平台,以提供出色能效,从而实现更加持久、更加丰富的移动体验,持续为高端移动设备解锁AI性能,并推动AI在更低价位的设备中的应用。
Armv9.2 CPU:加速在移动设备上运行AI的计算集群
作为终端设备的核心大脑,CPU的性能至关重要。为了加速在移动设备上运行AI应用,并为用户带来更好的体验,Armv9.2 CPU计算集群应运而生。
第二代Armv9.2 CPU集群包括具备超强性能的Arm Cortex-X925 CPU 和可持续提供出色性能的Arm Cortex-A725 CPU。此外,还包括 更新后的Arm Cortex-A520 CPU,它能够为低强度工作负载提供更卓越的能效表现。与此同时,Arm还更新了 DynamIQ Shared Unit (DSU-120),从而在 Armv9.2 CPU 集群配置中,降低功耗和缩小面积。以上产品均被集成在Arm终端CSS中。Arm终端CSS所带来的Armv9.2的能效优势,凭借物理实现和持续的软件优化,将彻底革新开发者和消费者的体验。
作为目前Arm最强的CPU产品,Cortex-X925 利用了领先的三纳米工艺节点,在 3.8GHz 的时钟速率和最大缓存大小的条件下,与 2023 年旗舰智能手机的四纳米 SoC 相比,其单线程性能大幅提高 36%。而在 AI 性能方面,Cortex-X925 取得了 46% 性能提升,可显著提高如大语言模型 (LLM) 等设备端生成式 AI 的响应能力。
Cortex-A725同样采用了三纳米工艺,与 Cortex-A720 相比,Cortex-A725 的性能效率提升了 35%,能效提升了 25%。 除此之外,作为Arm最新的高效CPU,Arm Cortex-A725还实现了性能与效率的最佳平衡。
除此之外,Cortex-A520 和DSU-120 也通过Arm终端CSS进行了全面的更新。数据显示,与 TCS23中的 Cortex-A520 相比,得益于更新的实现与先进的三纳米物理实现,新一代Cortex-A520能效提升了15%。DSU-120保留了为高性能用例扩展到14个核心的选项,其典型工作负载的功耗显著降低50%,并且整个 CPU 集群的缓存未命中功耗降低60%,从而减少漏电并延长设备的电池寿命。
Arm终端事业部高级产品经理Manish Pandey
Arm终端事业部高级产品经理Manish Pandey表示,Arm 的目标之一是为 Arm技术所触及的每个细分市场提供可行且出色的解决方案,并且确保Arm为此类市场和解决方案做好迎接 AI 的准备。Arm专注于大幅提升AI性能,具备全面的产品组合解决方案,并且为即将到来的新一波应用提供面向未来的解决方案,进而助力解决实际应用的复杂性和多维度问题,不断提升用户体验。
Immortalis-G925:为AI和机器学习提供更强性能
除了Armv9.2 CPU集群之外,在Arm终端CSS中还包括Immortalis-G925 GPU产品。新一代的GPU除了全面提升了游戏性能之外,在AI工作负载方面也有了较大的提升。
安谋科技 (Arm China) 市场总监王刚表示,与前几代产品一样,Arm不断提升 AI 工作负载在 GPU 上的性能和效率。作为Arm终端CSS的重要组件,Immortalis-G925在多个 AI 和机器学习 (ML) 网络上提升了 34% 的性能。
安谋科技 (Arm China) 市场总监王刚
虽然大多数AI处理工作能够在CPU上进行,但GPU为各种AI用例提供加速功能,包括图像分类、图像分割、对象检测、自然语言处理和语音转文本等。
数据显示,与TCS23中的Immortalis-G720相比,Immortalis-G925作为Arm终端CSS的一部分,在关键用例中提供一系列AI性能改进。在图像处理方面(包括分割和分类),Immortalis-G925可实现 41% 的性能提升。同时,在超级采样任务中,开发者可以使用神经网络放大图像,其性能可提高近30%,而在自然语言处理和语音转文本,性能可提高50%,同样十分惊艳。
据王刚介绍,Immoratlis-G925同样采用了三纳米的工艺,Arm正在携手领先的代工厂合作伙伴能够在三纳米工艺上充分发挥功耗、性能和面积 (PPA) 优势,同时通过生产就绪的芯片解决方案来缩短芯片的开发与部署时间。
Kleidi(意为“钥匙”):专为开发者量身定制的软件库
在Arm终端CSS之外,Arm还从开发者的角度出发,推出了面向开发者的软件库:Arm Kleidi。
“Kleidi”,在希腊语中代表“钥匙”。 Kleidi 软件库包含面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的KleidiCV。该软件库可以被直接嵌入到热门的AI框架中,开发者无需进行任何操作,就能够轻松地启用Arm CPU的 AI功能,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。
安谋科技 (Arm China) 开发者生态高级经理李陈鲁
据安谋科技 (Arm China) 开发者生态高级经理李陈鲁介绍,KleidiAI 是一套面向 AI 框架开发者的计算内核,使他们能够在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。KleidiAI 与 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3 等关键模型的性能,并且还可前后兼容,以确保 Arm 在引入更多技术时依然能适用未来市场的需求。
另据了解,Arm还与OpenCV.ai合作,力求让安卓开发者可以更轻松地将 OpenCV纳入到他们的项目中,并从KleidiCV带来的改进中受益。
写在最后:
从数据中心/云走向终端,AI将变得无处不在,带给消费者全新的体验。基于AI应用对算力提出的新需求,Arm发布了全新Arm 终端计算子系统 (CSS),其中包含的全新CPU、GPU与上一代产品相比均有了较大的性能提升,也具备了更好的能耗比。除此之外,Arm还面向开发者推出了Kleidi软件库。不难发现,Arm始终站在行业和技术前沿,以丰富的产品组合赋能AI落地,让AI更好地服务广大用户。期待搭载Arm终端CSS的手机产品尽快推出,为端侧AI体验提上新水平。