安谋科技Arm China发布全新“周易”X3 NPU:以8~80 FP8 TFLOPS算力,打造端侧AI计算效率的新标杆

原创
服务器 芯片
2025年11月13日,安谋科技Arm China正式发布了其新一代NPU IP——“周易”X3。作为安谋科技Arm China “All in AI” 产品战略下诞生的首款重磅产品,以及“AI Arm CHINA”战略发展方向的关键实践,“周易”X3 NPU旨在为汹涌的端侧AI发展浪潮,铸就一座坚实而高效的算力基石。

AI技术的飞速发展让我们体验到了科技进步带来的便携。从智能工厂中能够实时分析生产线上的细微瑕疵的工业摄像头,到智能手机的多模态助手能够看图说话、实时生成文案,再到智能汽车的座舱系统能理解舱内外的复杂场景,与乘客自然交流……2025年,人工智能的浪潮以前所未有的势头从云端走进每一个终端设备,服务于更多的行业、更多的用户。

然而,这些应用场景的背后,端侧设备正面临的空前算力压力。破局之钥,就是神经网络处理器(NPU)。20251113日,安谋科技Arm China正式发布了其新一代NPU IP——“周易”X3。作为安谋科技Arm China All in AI” 产品战略下诞生的首款重磅产品,以及“AI Arm CHINA”战略发展方向的关键实践,“周易”X3 NPU旨在为汹涌的端侧AI发展浪潮,铸就一座坚实而高效的算力基石。

端侧AI的选择:为什么是NPU

如果说CPU是计算机的大脑,负责逻辑控制和通用计算,GPU是处理图形和并行计算的肌肉,那么NPU就是专为AI算法设计的神经中枢

当前,越来越多的端侧设备(如手机、汽车、物联网设备等)开始部署AI应用,对实时、高效、隐私保护的需求越来越迫切。传统的CPUGPU在能效和特定计算模式上逐渐显现瓶颈,神经网络处理器(NPU)因其专为AI计算设计的架构,正成为驱动端侧智能进化的核心引擎。NPU不仅大幅提升计算效率,更支撑起大模型、多模态AI在终端设备上的落地,是实现“AI无处不在”愿景的关键硬件基础。

CPUGPU相比,NPU的的核心优势在于以下三个方面:

首先,NPU采用针对矩阵乘加、卷积运算等AI核心计算的高度并行化架构,摒弃了通用处理器中不必要的复杂控制逻辑,以最直接的路径处理AI任务。

其次,NPU拥有极致的能效比,在相同的功耗下,NPU执行AI推理任务的速度和效率远超CPUGPU,这对于电池供电的移动终端和对功耗敏感的物联网设备至关重要。

除了以上两个方面之外,在本地化AI处理不但能够实现瞬时响应,同时避免数据上传云端,能够更好地保护用户隐私。这也是端侧AI飞速发展的根本原因。

正如安谋科技Arm China产品研发副总裁刘浩在发布会上所述:“在‘All in AI’产品战略的指引下,我们将持续加大投入,以前瞻性视野整合顶尖研发资源,秉持开放合作理念,为生态伙伴提供业界领先的从硬件、软件到服务的端到端解决方案,全力赋能伙伴的产品创新和商业化落地。”

以前瞻性硬件架构,打造端侧AI计算效率的新标杆

周易”X3最大的突破在于其硬件架构的革新。它采用了专为大模型而生的最新DSP+DSA架构,从计算效率、带宽、精度适配、任务处理四大维度实现升级,精准解决端侧AI大模型运行难题,打造端侧AI计算效率的新标杆。

我们知道,过去的端侧AI多使用int8等定点运算以追求极致能效,但大模型对精度更为敏感。周易”X3毅然转向对浮点计算的全面支持,提供从FP4FP32的多种精度,实现了端侧AI计算的升维。其单Cluster最高支持4Core,拥有8~80 FP8 TFLOPS算力且可灵活配置,可灵活适配从低功耗物联网到高性能计算卡的不同场景。

除此之外,大模型尤其是其解码阶段,是典型的内存墙应用——计算单元常常等待数据从内存中读取。周易”X3的单Core带宽高达256GB/s,更为革命性的是,其集成了自研的WDC解压硬件,并允许开发者先对模型权重进行软件无损压缩,在加载时由WDC硬件实时解压,从而获得了额外约15%的等效带宽提升,相当于免费拓宽了数据高速公路。

面对端侧设备同时运行多个AI任务已成为常态。周易”X3集成了AI专属硬件引擎与专用硬化调度器,能将CPU负载从传统的百分之几降至惊人的0.5%,实现了超低延迟、高确定性的任务调度,确保了高优先级任务(如驾驶辅助)的即时响应,用户体验流畅无阻。

数据显示,与上一代“周易”X2产品,周易”X3CNN模型性能提升30%-50%,而在同算力规格下,AIGC大模型能力实现了10倍的跃升。在实际的Llama2 7B模型测试中,其Prefill阶段算力利用率达72%Decode阶段有效带宽利用率在WDC加持下超过100%。这意味着硬件潜力被近乎榨干,解决了端侧大模型跑得慢、答得卡的核心痛点。

除了以上性能优化之外,周易”X3还在架构层面实现了多项创新:

一是集成自研解压硬件WDC:使大模型Weight软件无损压缩后通过硬件解压能获得额外15%~20%等效带宽提升。

二是新增端侧大模型运行必备的W4A8/W4A16计算加速模式:对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。

三是集成AI专属硬件引擎AIFFAI Fixed-Function)与专用硬化调度器:实现超低至0.5%CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。

四是支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算,强浮点计算:可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。

软硬件深度协同,构建从好用到易用的开发生态

再强大的硬件,若没有易用的软件,也如同没有操作系统的超级计算机,无法发挥硬件的性能。为此,周易”X3搭载了 Compass AI软件平台,通过“软硬一体”的协同设计,让开发者从“好用”到“用好”,显著提升开发部署效率。

作为核心工具,平台中的NN Compiler(神经网络编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)及AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化与部署配置生成。此外,平台支持超160种算子与270种模型,兼容TensorFlowONNXPyTorchHugging Face等主流AI框架,提供开箱即用的Model Zoo

在笔者看来,除了集成丰富的功能之外,降低开发门槛,才是推动生态繁荣的关键要素。在这一方面,Compass AI平台展现出了极大的开放性和易用性:

一是广泛支持主流AI框架,并创新性地实现了Hugging Face模型一键部署。开发者可以从庞大的开源模型库中,轻松选择并快速部署到基于X3的硬件上,极大加速了创新周期。

二是平台并未将开发者视为黑盒用户,而是将ParserOptimizerLinux Driver等核心组件相继开源。同时,提供了更易用的DSL算子编程语言,允许开发者开发自定义算子,甚至打造属于自己的模型编译器。这种深度赋能的模式,让客户能够实现真正的差异化竞争。

三是平台支持业界领先的大模型动态Shape处理,并能提供TensorChannelToken Level等多样化的量化方式,结合GPTQ等主流方案,在保障精度的同时,实现模型从云到端的高效迁移。

“'周易'X3的产品优势,源于通用、灵活、高效且软硬协同的系统架构设计。安谋科技NPU产品线负责人兼首席架构师舒浩博士强调,这种软硬件的深度协同,正是在产品定义初期就开始的。软件团队会提前介入,告知硬件团队何种特性最利于软件发挥,硬件团队据此设计,如增大总线带宽、优化DMA,最终形成一个正向循环的飞轮。

 All in AI”与本土雄心:从感知智能迈向认知智能

“周易”X3的发布,不仅是技术产品的又一次突飞猛进,更是安谋科技战略转型的关键落子。它清晰地传递出安谋科技 “All in AI” 的强烈信号。

笔者看来,这一战略包含三个核心支柱:

一是以自研NPU为战略核心:安谋科技明确将NPU置于公司产品线的核心位置。作为国内最早的NPU研发团队之一,自2018年起,其团队已成功交付5NPU并实现终端商业落地。这种长期主义的投入,构筑了深厚的技术壁垒和护城河。

二是百分百的本土研发与支持:研发和支持团队100%来自中国,这不仅是对本土人才的信赖,更是对市场需求的精准把握。安谋科技产品总监鲍敏祺强调,“周易”X3遵循“软硬协同、全周期服务与成就客户”的准则。这意味着,从FPGA原型设计、硬件仿真到24小时快速响应的技术支持,客户都能获得来自本土团队的强力支撑,解决了芯片设计企业最担忧的“后期支持”问题。

三是构建开放生态,提供全栈方案:安谋科技的雄心不止于售卖IP许可证。它旨在提供从硬件IP、软件平台到技术服务的 “Total Solution” 。通过积极适配主流模型与操作系统,并将核心软件开源,它正努力成为一个生态的构建者和赋能者,与客户共同成长。

在本次发布会上,周易”X3也明确表明将借助通用性,精准覆盖基础设施、智能汽车、移动终端和智能物联网四大核心领域。而在发布会现场的Demo展示区,我们也清晰地看到周易家族的演进路径:从Z1的基础感知,到X2运行Stable Diffusion的文生图,再到X3流畅运行DeepSeekMiniCPM等主流大模型,进行文生文、图生文的多模态对话。这生动地表明,端侧AI正从感知智能大步迈向认知智能

写在最后:

迈入万物竞智的时代,创新层出不穷,背后离不开算力的强力支撑。安谋科技通过“周易”X3 NPU IP的发布,不仅展示了对端侧AI深刻的技术洞察和强大的交付能力,更展现了其作为中国芯片产业核心赋能者的长期决心。

随着具身智能、Agentic AI等新范式的兴起,端侧设备需要处理更复杂、更动态的环境信息,这对NPU的通用性、能效和软硬协同提出了更高的要求。为此,NPU未来将不再仅仅是SoC中的一个加速模块,而可能成为整个芯片体系的中心。

责任编辑:张诚 来源: 51CTO
相关推荐

2021-08-26 15:50:19

安谋科技

2025-08-26 13:32:12

2022-06-09 12:10:18

安谋科技

2019-12-20 09:11:11

智恒科技

2025-03-07 10:02:10

2021-08-26 16:33:28

安谋科技

2018-11-23 13:09:58

新华三

2015-12-02 09:48:15

AdMaster金数据大数据

2024-07-01 08:51:35

2025-08-28 09:16:00

2025-02-26 10:11:01

2016-09-27 11:07:44

服务器ARM服务器

2017-12-13 17:00:14

点赞
收藏

51CTO技术栈公众号