智东西 11-14
专为端侧大模型而生:解密AI计算加速“秘密武器”Arm China周易X3 NPU IP
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 云鹏

编辑 | 漠影

机器人走猫步引爆行业、舞蹈功夫如人类般丝滑;AI 手机一句话订外卖做报告、懂你所想知你所言;AI PC 本地部署模型,打造超级端侧智能体给企业提效降本;AI 眼镜智能识物、随拍随聊,智能汽车毫秒级实时分析路况 ……

今天,从 AI 手机、AI PC、AI 穿戴、智能汽车到具身智能,AI 从云端加速走向端侧。

端侧 AI 的发展正进入加速演进的新纪元,大模型向多模态方向发展,海量优秀端侧模型涌现、快速迭代,模型小型化、垂类化发展趋势明显,Agentic AI 成为重要趋势方向。

一系列变化给 AI 算力侧带来新的挑战。

端侧 AI 任务从早期单一语音识别发展至复杂环境感知、多模态交互等方向,AI 计算工作的规模和复杂性显著提升,能效优化、安全架构、软硬件协同、标准化生态构建,诸多问题摆在面前。

端侧 AI 需要的不是单纯的算力堆叠,而是效率优先,行业需要一个综合性、系统性、全局优化且更加灵活、生态兼容性出色的算力底座。

在这样的趋势下,异构计算模式成为主流方向,芯片设计正在从 " 通用计算 " 向 " 定制化异构计算 " 转变,其中具有独特优势的 NPU 日益成为关键支撑部分。

昨日,安谋科技 Arm China 正式发布了专为端侧大模型而生的最新一代 NPU IP —— " 周易 "X3,与 Arm 架构 CPU、GPU 协同,组成异构算力 " 更优解 ",直指端侧 AI 落地行业关键痛点。

在安谋科技看来,新一代 NPU 是引领端侧 AI 进化的关键。从全面的模型支持、通用的硬件架构、成熟开放的软件生态、出色的算力带宽、优化的能效面效到优秀的扩展性和系统一致性,安谋科技给端侧 AI 算力破局提供了 " 芯 " 路径。

一、端侧 AI 时代,NPU 成异构算力重要组成," 周易 " 剑指行业痛点

今天,端侧 AI 的发展势不可挡,其在响应速度、数据安全、网络依赖性、运行成本等方面均有明显优势,但在端侧 AI 的落地过程中所涌现出的问题和挑战同样不容忽视。

计算平台基础 AI 算力不足、存储带宽遇到瓶颈、终端设备的电池续航相对有限、散热空间和散热能力有限、模型适配同样不够完善。

在这样的背景下,NPU(神经网络处理器)作为专为 AI 计算和机器学习而设计的重要计算单元,几乎已经成为今天各类端侧 AI 设备实现优秀 AI 体验的 " 刚需 ",在执行当下主流的端侧 AI 推理任务时,能实现更高计算效率和更好的能效比。

在安谋科技看来," 周易 "NPU 团队是驱动创新的核心引擎,NPU 也一直是安谋科技的战略核心产品。

从 2018 年开始,安谋科技就组建了国内最早的 NPU 研发团队之一,目前已经交付了 5 代 NPU,并实现了在终端领域的商业落地,研发团队在硬件、软件、工具工具、方案等方面均有技术积累。据称 " 周易 "NPU 的研发和支持 100% 来自中国本土团队。

今天,中国无疑是端侧 AI 落地的桥头堡,拥有着规模最大同时最具增长潜力的市场。我们看到,在 AI 手机、AI PC、AI 眼镜、智能汽车、具身智能等热门终端赛道,头部玩家几乎均以中国企业占据主导。

我们看到,安谋科技背靠 Arm 架构技术与生态系统,将 Arm CPU、GPU 与安谋科技自研业务产品异构融合," 周易 "NPU 作为更聚焦国内市场需求的异构计算解决方案,无疑会为国内端侧 AI 落地注入重要驱动力。

二、多年迭代沉淀," 周易 "X3 揭开面纱,软硬深度协同是杀手锏

" 周易 "NPU 历经多年迭代与技术沉淀,已构建完整的硬件 IP 和 Compass 软件平台,涵盖 X 系列与 Z 系列的多款产品。此次发布的 " 周易 "X3,是安谋科技基于对当前技术发展趋势和行业需求痛点精准研判,对 NPU IP 的一次重要升级。

具体来看," 周易 "X3 重点在性能和易用性进行了升级,定位是 " 专为大模型而生 ",采用了最新的 DSP+DSA 架构,从定点转向浮点计算,其最核心的特点是通用、灵活、高效、软硬件紧密协同的计算架构。

新的 " 周易 "X3 NPU IP 可以兼顾传统 CNN 架构与当下主流的 Transformer 架构,可以满足各类端侧大模型的计算需求,进而加速 Gen AI、Agentic AI 与 Physical AI 在端侧的落地。

硬件架构方面,在关键性能提升上," 周易 "X3 单 Cluster 算力可以支持 8-80TFLOPS(FP8),灵活可配,单核心带宽最高为 256GB/s,可以实现更高的数据吞吐量。

带宽可以说是大模型流畅运行的 " 生命线 ",是影响大模型响应速度与性能的关键硬件指标,带宽能力的大幅提升,其重要性不言而喻。

同时," 周易 "X3 还支持端侧大模型必备的 W4A8 和 W4A16 计算加速模式,集成了 安谋科技自研的解压硬件 WDC,可以让大模型 Weight 软件无损压缩后通过硬件解压获得额外约 15% 的等效带宽,进而提升计算效率和计算密度。

此外," 周易 "X3 采用了 AI 专属硬件引擎 AIFF,配合专用硬化调度器,可以实现低至 0.5% 的 CPU 负载和低调度延迟,让 NPU 在并行处理多项 AI 任务时可以更高效,实际 AI 应用体验更流畅。

软件生态方面," 周易 "Compass AI 软件平台可以称得上是 " 金牌辅助 ",历经多轮迭代,从各个方面优化了大模型端到端性能,提供统一的端到端工具链支持全系列 " 周易 "NPU。

目前 Compass AI 软件平台已经兼容了 TensorFlow、ONNX、Pytorch 等主流 AI 框架,有着出色的大模型动态 Shape 支持能力,同时支持 GPTQ 等大模型主流量化方案、Hugging Face 模型库,以及 LLM、VLM、VLA、MoE 等多种类型的模型。

在模型支持方面," 周易 "X3 支持的算子数量超过 160 个、支持的模型数量超过 270 个。在 Compass AI 软件平台的加持下,开发门槛显著降低,进一步加速 " 周易 "NPU 生态的扩展。

面向广大开发者,Compass AI 平台可以提供先进的量化和性能优化算法,让开发者充分优化精度和性能。同时,平台支持用户模型和自定义算子等开发和调试,以及赋能客户进行产品差异化设计,这些能力均与当下开发者的关键诉求相一致。

总体来看,软硬技术深度协同是 " 周易 "X3 的核心优势,其 CNN 模型性能相较上一代提升了 30-50%。基于对各类大模型推理进行深度优化," 周易 "X3 在相同算力规格下,AIGC 大模型能力提升了 10 倍左右。

其多核算力线性度可以达到 70-80%,大模型 Prefill 阶段算力利用率提升至 72%,Decode 阶段有效带宽利用率在开启安谋科技自研的解压引擎 WDC 情况下超过 100%,可以更充分地释放硬件算力潜力。

可以说," 周易 "X3 给端侧 AI 计算效率立了一个新的标杆。

三、从 AI 手机、AI PC 到智能座舱、具身智能," 周易 "NPU 生态迸发巨大潜力

此次在发布会现场的 Demo 展区,我们看到基于 " 周易 "NPU IP 实现的诸多场景化落地解决方案,优秀的端侧 AI 体验,正加速走向现实。

从 " 周易 "Z1 的 AI 人脸识别、AI 物体识别、AI 语音识别到 " 周易 "Z2 的图像超分辨率优化、智能座舱应用,再到 " 周易 "X1 的 AI 图像降噪、" 周易 "X2 的文生图、文搜图 AI 应用,我们看到 " 周易 " 系列 NPU 是持续迭代的,是能够 " 进化 " 的,与技术发展紧密同步,与行业需求紧密结合。

这次在 " 周易 "X3 上,我们看到其在多模态方面的诸多 AI 应用,比如在当下业内大火的 AI 视觉识物、AI 读懂世界方面,基于 " 周易 "X3,AI PC 本地运行 MinicpM v2.6 模型,可以实现随时拍照随时识图,AI 快速图解各类事物。

从现场演示案例来看,AI 对照片的描述是具体准确的,可以给出 " 日落时宁静的海滩景色 " 这类描述,甚至可以读出图中的一些 " 气氛 "、" 意境 ",对于沙滩、海浪和一些景物纹理、形状都可以有比较具体的描述。

在经典的文生图应用方面,基于 " 周易 "X3,AI PC 本地运行 Stable Diffusion v1.5,可以实现流畅高质量的端侧文生图,从演示案例来看,图片的清晰度不错,同时生成速度仅为 " 秒级 ",AI 可以帮助创作者更高效地将创意想法变为现实。

在基础的文生文应用中,我们看到 " 周易 "X3 可以支持端侧运行

DeepSeek-R1-Distill-Qwen-1.5B,AI 对话的流畅度、tokens 生成速度都有比较明显的提升。

整体来看,相比前代产品,X3 在性能方面的大幅提升以及生态方面的出色支持,带来的最直观效果就是 AI 应用实际体验的流畅度大幅提升," 又快又好 " 成为常态。

今天我们在现场看到的演示只是 " 冰山一角 ",从加速卡、AI PC、AI 手机、具身智能、智能座舱、ADAS(高级驾驶辅助系统)到智能 IPC 等终端,聚焦端侧各类场景的 " 周易 "X3 NPU IP 已经可以覆盖基础设施、智能汽车、移动终端、智能物联等领域。

展望未来,随着 AI 行业发展,NPU 潜力正愈发凸显。Agentic AI 快速发展、物理 AI 崭露头角,AI 沿着这些重要路径快速发展,端侧 AI 领域涌现出诸多新蓝海。

安谋科技提到,未来其 " 周易 "NPU 产品将继续迭代,当前计算架构持续演进,更高效的通用计算能力、更强的计算扩展能力、更多的数据格式支持、更高效的软件使用界面都将是后续 NPU 架构未来演进的方向。

虽然技术发展的趋势和方向在不断调整,但性能、能效、时延、安全、成本等核心命题的重要性仍然不会变。

正如安谋科技所提到的,他们 " 要在不确定性中寻找确定性 ",比如在低比特量化、浮点运算等方向持续推动,在提升产品核心能力的基础上,保持产品出色的灵活性,以应对复杂的行业挑战和客户对灵活性的高要求。

可以看到,今天的 " 周易 "NPU 基于自身独特优势,面向端侧 AI 加速落地的未来展现出巨大潜力。

结语:前瞻性布局端侧 AI,安谋科技用技术和生态领跑行业

今天,端侧 AI 的浪潮正在重塑人机交互的未来,推动 " 千人千面 " 的实时智能深入千行百业。从计算 IP、开源软件栈、工具链到算法优化,安谋科技有着 Arm 全栈技术生态支撑,加之自身出色技术创新能力,赋能国内芯片赛道玩家抓住端侧 AI 机遇。

专为端侧大模型设计的安谋科技 " 周易 "X3,凭借其专用化设计与软硬件协同优化能力,给端侧 AI 应用体验带来了一次跃迁升级,无疑将成为推动行业变革的核心技术底座。

多年来,安谋科技一直专注于核心 IP 设计,进行前瞻布局,解决客户自研 AI 芯片的关键痛点。目前安谋科技的核心战略发展方向已经很明确,就是全力 "All in AI"。

值得一提的是,从多年来的技术和产品布局来看,安谋科技对 AI 的全力以赴并非是追热点,而是一种长期主义的坚持,做 " 正确但困难 " 的事情。在今天的中国,有这样一群工程师,正 " 以硅为笔,以梦为墨 ",书写着中国智能计算的新故事。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 周易 arm 安谋科技 智能汽车
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论