安谋科技Arm China发布全新“周易” X3 NPU：算力高达80 FP8 TFLOPS

快科技 11 月 18 日消息，作为国内领先的芯片 IP 设计与服务提供商，安谋科技近日上海举办新品发布会，正式推出了新一代 " 周易 "X3 NPU。

这也是安谋科技打造 Arm China"All in AI" 产品战略之后，发布的第一款重磅产品，面向基础设施、智能汽车、移动终端、智能物联网四大领域。

它可为 AI 加速卡、智能座舱、ADAS 高级辅助驾驶、具身智能机器人、AI PC 笔记本、AI 手机、智能网关、智能 IPC 网络摄像机等提供高效的端侧 AI 计算能力。

安谋科技旗下拥有一系列自研产品，除了 " 周易 "NPU，还有 " 星辰 "CPU、" 山海 "SPU、" 玲珑 " 多媒体系列，全面覆盖核心领域，可匹配多场景 AI 计算需求。

" 周易 "NPU 团队成立于 2018 年，是国内最早的 NPU 研发团队之一，可提供涵盖硬件、软件、工具的全栈式端到端方案，而且研发支持 100％来自中国本土团队。

" 周易 "X3 NPU 基于专为大模型而生的最新 DSP+DSA 通用架构，兼顾 CNN 与 Transformer，有效解决端侧 AI 大模型运行难题。

它单个 Cluster 丛簇可配备最多 4 个核心，FP8 算力 8~80 TFlops ( 万亿次浮点计算 ) ，而且可灵活配置，单个核心的带宽高达 256GB/s。

在架构层面，" 周易 "X3 实现了多项创新，包括：

－集成自研解压硬件 WDC：

大模型 Weight 软件无损压缩后，通过硬件解压能获得额外 15-20％的等效带宽提升。

－新增端侧 W4A8/W4A16 计算加速模式：

均为大模型运行必备。同构对模型权重进行低比特量化，大幅降低带宽消耗，支持云端大模型向端侧的高效迁移。

－集成 AI 专属硬件引擎 AIFF ( AI Fixed-Function ) 与专用硬化调度器：

可实现超低至 0.5％的 CPU 负载与低调度延迟，灵活支持端侧多任务场景和任意优先级调度场景，确保高优先级任务的即时响应。

－支持 INT4/8/16/32、FP4/8/16/32、BF16 多精度融合计算和强浮点计算：

可灵活适配智能手机边缘部署、AI PC 推理、智能汽车等从传统 CNN 到前沿大模型的数据类型需求，平衡性能与能效。

相比上代 " 周易 "X2，CNN 模型性能提升 30-50％，多核算力线性度达到 70-80％。

在同算力规格下，AIGC 大模型能力较上一代产品实现 10 倍增长，这得益于 16 倍的 FP16 TFLOPS、4 倍的计算核心带宽、超过 10 倍的 Softmax 和 LayerNorm 性能提升共同驱动。

基于上述优化，" 周易 "X3 NPU 的端侧大模型推理更加高效。

Llama2 7B 大模型实测中，" 周易 "X3 NPU IP 在 Prefill 阶段算力利用率高达 72％，而且在安谋科技 Arm China 自研解压硬件 WDC 的加持下，Decode 阶段有效带宽利用率超过 100％，远超行业平均水平，从而满足大模型解码阶段的高吞吐需求。

除了高性能硬件，" 周易 "X3 NPU IP 还配套提供完善易用的 " 周易 "Compass AI 软件平台，通过软硬一体协同设计，大大提升开发部署效率。

Compass AI 软件平台通过覆盖开发全流程的工具链、极致的易用性优化、开放的生态布局，解决了端侧 AI 开发 " 适配难、周期长、门槛高 " 等难题。

作为核心工具，平台中的 NN Compiler（神经网络编译器）集成 Parser（模型解析）、Optimizer（优化器）、GBuilder（生成器）、AIPULLM（大模型运行工具），可实现主流模型的高效转化、自动化优化、部署配置生成。

它还具备以下核心能力：

－广泛的框架与模型支持：

支持超过 160 种算子与 270 种模型，兼容 TensorFlow、ONNX、PyTorch、Hugging Face 等主流 AI 框架，提供开箱即用的 Model Zoo。

－创新的 Hugging Face 模型 " 一键部署 "：

通过 AIPULLM 工具链，直接支持 Hugging Face 格式模型，实现 " 一站式 " 转化与部署，极大降低开发门槛。

－先进的模型推理优化：

业界领先的大模型动态 shape 支持，高效处理任意长度输入序列；

提供 Tensor、Channel、Token Level 多样量化方式，以及 GPTQ 等大模型主流量化方案，并增加对 LLM/VLM/VLA 及 MoE 等模型的高性能支持。

－灵活的开发者赋能：

提供多种开放接口，支持用户模型与自定义算子的开发与调试；

配备丰富的调试工具与 Bit 精度软件仿真平台，支持多层次白盒开发与性能调优，简化算法移植与部署。

－全面的系统与异构兼容：

支持 Android、Linux、RTOS、QNX 等多种操作系统，并通过 TVM/ONNX 实现 SoC 异构计算，高效调度 CPU、GPU、NPU 等计算资源。

发布会现场，安谋科技还全面展示了 " 周易 "NPU 产品方案与落地成果。

－ " 周易 "Z1：

算力 0.32~3.75 TOPS，适用于 AIoT 场景，广泛支持人脸识别、人脸及人体关键点检测、文字识别等，已进入 AI 智能音箱等多种产品。

－ " 周易 "Z2/Z3：

算力 1.25~5 TOPS，面向 AIoT、入门级座舱等市场，支持前视辅助驾驶方案、舱泊一体方案及安全仪表盘方案、图像超分辨率优化等。

－ " 周易 "X1：

算力 10 TOPS，面向高端 AIoT、汽车座舱等市场，支持驾驶员监控、乘客监控、自动泊车、AVM 360 环视、AI 图像降噪等。

－ " 周易 "X2：

算力 10-30 TOPS，面向高端 AIoT、AI PC 笔记本、AI 平板机、AI 手机等，现场展示了运行 Stable Diffusion v1.5 文生图、CLIP 文搜图的能力，可实现端侧多模态 AI 流畅运行。

－ " 周易 "X3：

算力 8-80 FP8 TFLOPS，面向基础设施、智能汽车、移动终端、AIoT 等市场，现场展示了基于 " 周易 "X3 的主流大模型效果，包括运行 DeepSeek-R1-Distill-Qwen-1.5B 模型的文生文 AI 流畅对话、运行 Stable Diffusion v1.5 的文生图效果、运行 MiniCPM v2.6 模型的图片识别及图生文多模态应用等，均展现出优异的端侧大模型推理性能。

宙世代

一起剪

相关标签