安谋科技Arm China发布全新“周易”X3 NPU：以8~80 FP8 TFLOPS算力，打造端侧AI计算效率的新标杆-51CTO.COM

AI技术的飞速发展让我们体验到了科技进步带来的便携。从智能工厂中能够实时分析生产线上的细微瑕疵的工业摄像头，到智能手机的多模态助手能够看图说话、实时生成文案，再到智能汽车的座舱系统能理解舱内外的复杂场景，与乘客自然交流……2025年，人工智能的浪潮以前所未有的势头从云端走进每一个终端设备，服务于更多的行业、更多的用户。

然而，这些应用场景的背后，端侧设备正面临的空前算力压力。破局之钥，就是神经网络处理器（NPU）。2025年11月13日，安谋科技Arm China正式发布了其新一代NPU IP——“周易”X3。作为安谋科技Arm China “All in AI” 产品战略下诞生的首款重磅产品，以及“AI Arm CHINA”战略发展方向的关键实践，“周易”X3 NPU旨在为汹涌的端侧AI发展浪潮，铸就一座坚实而高效的算力基石。

端侧AI的选择：为什么是NPU？

如果说CPU是计算机的“大脑”，负责逻辑控制和通用计算，GPU是处理图形和并行计算的“肌肉”，那么NPU就是专为AI算法设计的“神经中枢”。

当前，越来越多的端侧设备（如手机、汽车、物联网设备等）开始部署AI应用，对实时、高效、隐私保护的需求越来越迫切。传统的CPU和GPU在能效和特定计算模式上逐渐显现瓶颈，神经网络处理器（NPU）因其专为AI计算设计的架构，正成为驱动端侧智能进化的核心引擎。NPU不仅大幅提升计算效率，更支撑起大模型、多模态AI在终端设备上的落地，是实现“AI无处不在”愿景的关键硬件基础。

与CPU和GPU相比，NPU的的核心优势在于以下三个方面：

首先，NPU采用针对矩阵乘加、卷积运算等AI核心计算的高度并行化架构，摒弃了通用处理器中不必要的复杂控制逻辑，以最直接的路径处理AI任务。

其次，NPU拥有极致的能效比，在相同的功耗下，NPU执行AI推理任务的速度和效率远超CPU和GPU，这对于电池供电的移动终端和对功耗敏感的物联网设备至关重要。

除了以上两个方面之外，在本地化AI处理不但能够实现瞬时响应，同时避免数据上传云端，能够更好地保护用户隐私。这也是端侧AI飞速发展的根本原因。

正如安谋科技Arm China产品研发副总裁刘浩在发布会上所述：“在‘All in AI’产品战略的指引下，我们将持续加大投入，以前瞻性视野整合顶尖研发资源，秉持开放合作理念，为生态伙伴提供业界领先的从硬件、软件到服务的端到端解决方案，全力赋能伙伴的产品创新和商业化落地。”

以前瞻性硬件架构，打造端侧AI计算效率的新标杆

“周易”X3最大的突破在于其硬件架构的革新。它采用了“专为大模型而生的最新DSP+DSA架构”，从计算效率、带宽、精度适配、任务处理四大维度实现升级，精准解决端侧AI大模型运行难题，打造端侧AI计算效率的新标杆。

我们知道，过去的端侧AI多使用int8等定点运算以追求极致能效，但大模型对精度更为敏感。“周易”X3毅然转向对浮点计算的全面支持，提供从FP4到FP32的多种精度，实现了端侧AI计算的“升维”。其单Cluster最高支持4个Core，拥有8~80 FP8 TFLOPS算力且可灵活配置，可灵活适配从低功耗物联网到高性能计算卡的不同场景。

除此之外，大模型尤其是其解码阶段，是典型的“内存墙”应用——计算单元常常等待数据从内存中读取。“周易”X3的单Core带宽高达256GB/s，更为革命性的是，其集成了自研的WDC解压硬件，并允许开发者先对模型权重进行软件无损压缩，在加载时由WDC硬件实时解压，从而获得了额外约15%的等效带宽提升，相当于“免费”拓宽了数据高速公路。

面对端侧设备同时运行多个AI任务已成为常态。“周易”X3集成了AI专属硬件引擎与专用硬化调度器，能将CPU负载从传统的百分之几降至惊人的0.5%，实现了超低延迟、高确定性的任务调度，确保了高优先级任务（如驾驶辅助）的即时响应，用户体验流畅无阻。

数据显示，与上一代“周易”X2产品，“周易”X3的CNN模型性能提升30%-50%，而在同算力规格下，AIGC大模型能力实现了10倍的跃升。在实际的Llama2 7B模型测试中，其Prefill阶段算力利用率达72%，Decode阶段有效带宽利用率在WDC加持下超过100%。这意味着硬件潜力被近乎“榨干”，解决了端侧大模型“跑得慢、答得卡”的核心痛点。

除了以上性能优化之外，“周易”X3还在架构层面实现了多项创新：

一是集成自研解压硬件WDC：使大模型Weight软件无损压缩后通过硬件解压能获得额外15%~20%等效带宽提升。

二是新增端侧大模型运行必备的W4A8/W4A16计算加速模式：对模型权重进行低比特量化，大幅降低带宽消耗，支持云端大模型向端侧的高效迁移。

三是集成AI专属硬件引擎AIFF（AI Fixed-Function）与专用硬化调度器：实现超低至0.5%的CPU负载与低调度延迟，灵活支持端侧多任务场景和任意优先级调度场景，确保高优先级任务的即时响应。

四是支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算，强浮点计算：可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求，平衡性能与能效。

软硬件深度协同，构建从好用到易用的开发生态

再强大的硬件，若没有易用的软件，也如同没有操作系统的超级计算机，无法发挥硬件的性能。为此，“周易”X3搭载了 Compass AI软件平台，通过“软硬一体”的协同设计，让开发者从“好用”到“用好”，显著提升开发部署效率。

作为核心工具，平台中的NN Compiler（神经网络编译器）集成Parser（模型解析）、Optimizer（优化器）、GBuilder（生成器）及AIPULLM（大模型运行工具），可实现主流模型的高效转化、自动化优化与部署配置生成。此外，平台支持超160种算子与270种模型，兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架，提供开箱即用的Model Zoo。

在笔者看来，除了集成丰富的功能之外，降低开发门槛，才是推动生态繁荣的关键要素。在这一方面，Compass AI平台展现出了极大的开放性和易用性：

一是广泛支持主流AI框架，并创新性地实现了Hugging Face模型“一键部署”。开发者可以从庞大的开源模型库中，轻松选择并快速部署到基于X3的硬件上，极大加速了创新周期。

二是平台并未将开发者视为“黑盒”用户，而是将Parser、Optimizer、Linux Driver等核心组件相继开源。同时，提供了更易用的DSL算子编程语言，允许开发者开发自定义算子，甚至打造属于自己的模型编译器。这种深度赋能的模式，让客户能够实现真正的差异化竞争。

三是平台支持业界领先的大模型动态Shape处理，并能提供Tensor、Channel、Token Level等多样化的量化方式，结合GPTQ等主流方案，在保障精度的同时，实现模型从云到端的高效迁移。

“'周易'X3的产品优势，源于通用、灵活、高效且软硬协同的系统架构设计。”安谋科技NPU产品线负责人兼首席架构师舒浩博士强调，这种软硬件的深度协同，正是在产品定义初期就开始的。软件团队会提前介入，告知硬件团队何种特性最利于软件发挥，硬件团队据此设计，如增大总线带宽、优化DMA，最终形成一个正向循环的飞轮。

“All in AI”与本土雄心：从“感知智能”迈向“认知智能”

“周易”X3的发布，不仅是技术产品的又一次突飞猛进，更是安谋科技战略转型的关键落子。它清晰地传递出安谋科技 “All in AI” 的强烈信号。

笔者看来，这一战略包含三个核心支柱：

一是以自研NPU为战略核心：安谋科技明确将NPU置于公司产品线的核心位置。作为国内最早的NPU研发团队之一，自2018年起，其团队已成功交付5代NPU并实现终端商业落地。这种长期主义的投入，构筑了深厚的技术壁垒和护城河。

二是百分百的本土研发与支持：研发和支持团队100%来自中国，这不仅是对本土人才的信赖，更是对市场需求的精准把握。安谋科技产品总监鲍敏祺强调，“周易”X3遵循“软硬协同、全周期服务与成就客户”的准则。这意味着，从FPGA原型设计、硬件仿真到24小时快速响应的技术支持，客户都能获得来自本土团队的强力支撑，解决了芯片设计企业最担忧的“后期支持”问题。

三是构建开放生态，提供全栈方案：安谋科技的雄心不止于售卖IP许可证。它旨在提供从硬件IP、软件平台到技术服务的 “Total Solution” 。通过积极适配主流模型与操作系统，并将核心软件开源，它正努力成为一个生态的构建者和赋能者，与客户共同成长。

在本次发布会上，“周易”X3也明确表明将借助通用性，精准覆盖基础设施、智能汽车、移动终端和智能物联网四大核心领域。而在发布会现场的Demo展示区，我们也清晰地看到 “周易”家族的演进路径：从Z1的基础感知，到X2运行Stable Diffusion的文生图，再到X3流畅运行DeepSeek、MiniCPM等主流大模型，进行文生文、图生文的多模态对话。这生动地表明，端侧AI正从“感知智能”大步迈向“认知智能”。

写在最后：

迈入万物竞智的时代，创新层出不穷，背后离不开算力的强力支撑。安谋科技通过“周易”X3 NPU IP的发布，不仅展示了对端侧AI深刻的技术洞察和强大的交付能力，更展现了其作为中国芯片产业核心赋能者的长期决心。

随着具身智能、Agentic AI等新范式的兴起，端侧设备需要处理更复杂、更动态的环境信息，这对NPU的通用性、能效和软硬协同提出了更高的要求。为此，NPU未来将不再仅仅是SoC中的一个加速模块，而可能成为整个芯片体系的中心。