快科技 11 月 18 日消息,作为国内领先的芯片 IP 设计与服务提供商,安谋科技近日上海举办新品发布会,正式推出了新一代 " 周易 "X3 NPU。
这也是安谋科技打造 Arm China"All in AI" 产品战略之后,发布的第一款重磅产品,面向基础设施、智能汽车、移动终端、智能物联网四大领域。
它可为 AI 加速卡、智能座舱、ADAS 高级辅助驾驶、具身智能机器人、AI PC 笔记本、AI 手机、智能网关、智能 IPC 网络摄像机等提供高效的端侧 AI 计算能力。

安谋科技旗下拥有一系列自研产品,除了 " 周易 "NPU,还有 " 星辰 "CPU、" 山海 "SPU、" 玲珑 " 多媒体系列,全面覆盖核心领域,可匹配多场景 AI 计算需求。
" 周易 "NPU 团队成立于 2018 年,是国内最早的 NPU 研发团队之一,可提供涵盖硬件、软件、工具的全栈式端到端方案,而且研发支持 100%来自中国本土团队。

" 周易 "X3 NPU 基于专为大模型而生的最新 DSP+DSA 通用架构,兼顾 CNN 与 Transformer,有效解决端侧 AI 大模型运行难题。
它单个 Cluster 丛簇可配备最多 4 个核心,FP8 算力 8~80 TFlops ( 万亿次浮点计算 ) ,而且可灵活配置,单个核心的带宽高达 256GB/s。
在架构层面," 周易 "X3 实现了多项创新,包括:
- 集成自研解压硬件 WDC:
大模型 Weight 软件无损压缩后,通过硬件解压能获得额外 15-20%的等效带宽提升。
- 新增端侧 W4A8/W4A16 计算加速模式:
均为大模型运行必备。同构对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。
- 集成 AI 专属硬件引擎 AIFF ( AI Fixed-Function ) 与专用硬化调度器:
可实现超低至 0.5%的 CPU 负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。
- 支持 INT4/8/16/32、FP4/8/16/32、BF16 多精度融合计算和强浮点计算:
可灵活适配智能手机边缘部署、AI PC 推理、智能汽车等从传统 CNN 到前沿大模型的数据类型需求,平衡性能与能效。


相比上代 " 周易 "X2,CNN 模型性能提升 30-50%,多核算力线性度达到 70-80%。
在同算力规格下,AIGC 大模型能力较上一代产品实现 10 倍增长,这得益于 16 倍的 FP16 TFLOPS、4 倍的计算核心带宽、超过 10 倍的 Softmax 和 LayerNorm 性能提升共同驱动。
基于上述优化," 周易 "X3 NPU 的端侧大模型推理更加高效。
Llama2 7B 大模型实测中," 周易 "X3 NPU IP 在 Prefill 阶段算力利用率高达 72%,而且在安谋科技 Arm China 自研解压硬件 WDC 的加持下,Decode 阶段有效带宽利用率超过 100%,远超行业平均水平,从而满足大模型解码阶段的高吞吐需求。

除了高性能硬件," 周易 "X3 NPU IP 还配套提供完善易用的 " 周易 "Compass AI 软件平台,通过软硬一体协同设计,大大提升开发部署效率。
Compass AI 软件平台通过覆盖开发全流程的工具链、极致的易用性优化、开放的生态布局,解决了端侧 AI 开发 " 适配难、周期长、门槛高 " 等难题。
作为核心工具,平台中的 NN Compiler(神经网络编译器)集成 Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)、AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化、部署配置生成。
它还具备以下核心能力:
- 广泛的框架与模型支持:
支持超过 160 种算子与 270 种模型,兼容 TensorFlow、ONNX、PyTorch、Hugging Face 等主流 AI 框架,提供开箱即用的 Model Zoo。
- 创新的 Hugging Face 模型 " 一键部署 ":
通过 AIPULLM 工具链,直接支持 Hugging Face 格式模型,实现 " 一站式 " 转化与部署,极大降低开发门槛。
- 先进的模型推理优化:
业界领先的大模型动态 shape 支持,高效处理任意长度输入序列;
提供 Tensor、Channel、Token Level 多样量化方式,以及 GPTQ 等大模型主流量化方案,并增加对 LLM/VLM/VLA 及 MoE 等模型的高性能支持。
- 灵活的开发者赋能:
提供多种开放接口,支持用户模型与自定义算子的开发与调试;
配备丰富的调试工具与 Bit 精度软件仿真平台,支持多层次白盒开发与性能调优,简化算法移植与部署。
- 全面的系统与异构兼容:
支持 Android、Linux、RTOS、QNX 等多种操作系统,并通过 TVM/ONNX 实现 SoC 异构计算,高效调度 CPU、GPU、NPU 等计算资源。


发布会现场,安谋科技还全面展示了 " 周易 "NPU 产品方案与落地成果。
- " 周易 "Z1:
算力 0.32~3.75 TOPS,适用于 AIoT 场景,广泛支持人脸识别、人脸及人体关键点检测、文字识别等,已进入 AI 智能音箱等多种产品。
- " 周易 "Z2/Z3:
算力 1.25~5 TOPS,面向 AIoT、入门级座舱等市场,支持前视辅助驾驶方案、舱泊一体方案及安全仪表盘方案、图像超分辨率优化等。
- " 周易 "X1:
算力 10 TOPS,面向高端 AIoT、汽车座舱等市场,支持驾驶员监控、乘客监控、自动泊车、AVM 360 环视、AI 图像降噪等。
- " 周易 "X2:
算力 10-30 TOPS,面向高端 AIoT、AI PC 笔记本、AI 平板机、AI 手机等,现场展示了运行 Stable Diffusion v1.5 文生图、CLIP 文搜图的能力,可实现端侧多模态 AI 流畅运行。
- " 周易 "X3:
算力 8-80 FP8 TFLOPS,面向基础设施、智能汽车、移动终端、AIoT 等市场,现场展示了基于 " 周易 "X3 的主流大模型效果,包括运行 DeepSeek-R1-Distill-Qwen-1.5B 模型的文生文 AI 流畅对话、运行 Stable Diffusion v1.5 的文生图效果、运行 MiniCPM v2.6 模型的图片识别及图生文多模态应用等,均展现出优异的端侧大模型推理性能。




登录后才可以发布评论哦
打开小程序可以发布评论哦