驱动之家 6小时前
安谋科技Arm China发布全新“周易” X3 NPU:算力高达80 FP8 TFLOPS
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 11 月 18 日消息,作为国内领先的芯片 IP 设计与服务提供商,安谋科技近日上海举办新品发布会,正式推出了新一代 " 周易 "X3 NPU。

这也是安谋科技打造 Arm China"All in AI" 产品战略之后,发布的第一款重磅产品,面向基础设施、智能汽车、移动终端、智能物联网四大领域。

它可为 AI 加速卡、智能座舱、ADAS 高级辅助驾驶、具身智能机器人、AI PC 笔记本、AI 手机、智能网关、智能 IPC 网络摄像机等提供高效的端侧 AI 计算能力。

安谋科技旗下拥有一系列自研产品,除了 " 周易 "NPU,还有 " 星辰 "CPU、" 山海 "SPU、" 玲珑 " 多媒体系列,全面覆盖核心领域,可匹配多场景 AI 计算需求。

" 周易 "NPU 团队成立于 2018 年,是国内最早的 NPU 研发团队之一,可提供涵盖硬件、软件、工具的全栈式端到端方案,而且研发支持 100%来自中国本土团队。

" 周易 "X3 NPU 基于专为大模型而生的最新 DSP+DSA 通用架构,兼顾 CNN 与 Transformer,有效解决端侧 AI 大模型运行难题。

它单个 Cluster 丛簇可配备最多 4 个核心,FP8 算力 8~80 TFlops ( 万亿次浮点计算 ) ,而且可灵活配置,单个核心的带宽高达 256GB/s。

在架构层面," 周易 "X3 实现了多项创新,包括:

- 集成自研解压硬件 WDC:

大模型 Weight 软件无损压缩后,通过硬件解压能获得额外 15-20%的等效带宽提升。

- 新增端侧 W4A8/W4A16 计算加速模式:

均为大模型运行必备。同构对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。

- 集成 AI 专属硬件引擎 AIFF ( AI Fixed-Function ) 与专用硬化调度器:

可实现超低至 0.5%的 CPU 负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。

- 支持 INT4/8/16/32、FP4/8/16/32、BF16 多精度融合计算和强浮点计算:

可灵活适配智能手机边缘部署、AI PC 推理、智能汽车等从传统 CNN 到前沿大模型的数据类型需求,平衡性能与能效。

相比上代 " 周易 "X2,CNN 模型性能提升 30-50%,多核算力线性度达到 70-80%。

在同算力规格下,AIGC 大模型能力较上一代产品实现 10 倍增长,这得益于 16 倍的 FP16 TFLOPS、4 倍的计算核心带宽、超过 10 倍的 Softmax 和 LayerNorm 性能提升共同驱动。

基于上述优化," 周易 "X3 NPU 的端侧大模型推理更加高效。

Llama2 7B 大模型实测中," 周易 "X3 NPU IP 在 Prefill 阶段算力利用率高达 72%,而且在安谋科技 Arm China 自研解压硬件 WDC 的加持下,Decode 阶段有效带宽利用率超过 100%,远超行业平均水平,从而满足大模型解码阶段的高吞吐需求。

除了高性能硬件," 周易 "X3 NPU IP 还配套提供完善易用的 " 周易 "Compass AI 软件平台,通过软硬一体协同设计,大大提升开发部署效率。

Compass AI 软件平台通过覆盖开发全流程的工具链、极致的易用性优化、开放的生态布局,解决了端侧 AI 开发 " 适配难、周期长、门槛高 " 等难题。

作为核心工具,平台中的 NN Compiler(神经网络编译器)集成 Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)、AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化、部署配置生成。

它还具备以下核心能力:

- 广泛的框架与模型支持:

支持超过 160 种算子与 270 种模型,兼容 TensorFlow、ONNX、PyTorch、Hugging Face 等主流 AI 框架,提供开箱即用的 Model Zoo。

- 创新的 Hugging Face 模型 " 一键部署 ":

通过 AIPULLM 工具链,直接支持 Hugging Face 格式模型,实现 " 一站式 " 转化与部署,极大降低开发门槛。

- 先进的模型推理优化:

业界领先的大模型动态 shape 支持,高效处理任意长度输入序列;

提供 Tensor、Channel、Token Level 多样量化方式,以及 GPTQ 等大模型主流量化方案,并增加对 LLM/VLM/VLA 及 MoE 等模型的高性能支持。

- 灵活的开发者赋能:

提供多种开放接口,支持用户模型与自定义算子的开发与调试;

配备丰富的调试工具与 Bit 精度软件仿真平台,支持多层次白盒开发与性能调优,简化算法移植与部署。

- 全面的系统与异构兼容:

支持 Android、Linux、RTOS、QNX 等多种操作系统,并通过 TVM/ONNX 实现 SoC 异构计算,高效调度 CPU、GPU、NPU 等计算资源。

发布会现场,安谋科技还全面展示了 " 周易 "NPU 产品方案与落地成果。

- " 周易 "Z1:

算力 0.32~3.75 TOPS,适用于 AIoT 场景,广泛支持人脸识别、人脸及人体关键点检测、文字识别等,已进入 AI 智能音箱等多种产品。

- " 周易 "Z2/Z3:

算力 1.25~5 TOPS,面向 AIoT、入门级座舱等市场,支持前视辅助驾驶方案、舱泊一体方案及安全仪表盘方案、图像超分辨率优化等。

- " 周易 "X1:

算力 10 TOPS,面向高端 AIoT、汽车座舱等市场,支持驾驶员监控、乘客监控、自动泊车、AVM 360 环视、AI 图像降噪等。

- " 周易 "X2:

算力 10-30 TOPS,面向高端 AIoT、AI PC 笔记本、AI 平板机、AI 手机等,现场展示了运行 Stable Diffusion v1.5 文生图、CLIP 文搜图的能力,可实现端侧多模态 AI 流畅运行。

- " 周易 "X3:

算力 8-80 FP8 TFLOPS,面向基础设施、智能汽车、移动终端、AIoT 等市场,现场展示了基于 " 周易 "X3 的主流大模型效果,包括运行 DeepSeek-R1-Distill-Qwen-1.5B 模型的文生文 AI 流畅对话、运行 Stable Diffusion v1.5 的文生图效果、运行 MiniCPM v2.6 模型的图片识别及图生文多模态应用等,均展现出优异的端侧大模型推理性能。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

周易 ai arm 安谋科技
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论