今天在 AI 圈,很多人每天一睁眼,最关心的就是一件事:" 我们今天又烧了多少 Token?"是的,我们正在跨入一个崭新的 " 词元(Token)时代 "。Token 正在成为 AI 时代全新的生产单位,而算力需求,则被 Agentic AI(智能体)成倍地放大。
年初开源智能体 " 龙虾(OpenClaw)" 的火爆,几乎把所有从业者、每一家科技大厂,都毫无悬念地裹挟进了这场智能体风暴。
正如摩尔线程 CEO 张建中在 5 月 18 日的产品发布会上所言,现在的 IoT,已经不是简单的 Internet of Things(物联网),而是 Intelligence of Things(万物智能)。当原本 " 不思考 " 的设备开始具备理解和对话的能力,万物智能的下沉速度超乎想象。但,硬币的另一面是残酷的。狂欢背后,是整个智算产业的 " 算力重压 "。
面对这场席卷而来的 Token 海啸,作为智算基石的国产 GPU 厂商,究竟该扮演什么角色?
或许摩尔线程此次 " 词元时代,万物智能 " 的年度产品发布会,能够给全行业提供一个观察切口。随着云端万卡级集群、边缘和终端三驾马车以及具身智能仿真平台的重磅发布,摩尔线程的战略图景已然清晰——以全功能 GPU 为坚实底座,筑牢 " 云、边、端 " 三位一体的闭环,全速合围 Token 时代。
边缘和终端突围
三笔账,看懂摩尔线程的端侧 " 卡位战 "
过去两年智算中心的火热让 GPU 公司普遍 " 逐云而居 "。但在这场发布会上,摩尔线程却把很大篇幅留给了边缘和终端,一口气甩出了三件核心武器:MTT AICUBE、MTT AIBOOK 与 MTT E300,全面覆盖个人、家庭与行业边缘场景。
一家国产 GPU 公司,为什么要去做终端消费产品?如果站在传统 GPU 公司视角,这似乎是拉长了战线。但如果放到 Token 时代来看,摩尔线程在端侧的布局,恰恰是看清了不可逆转的三笔 " 硬账 ":
1.
第一笔是经济账:
高频 Token 消耗倒逼算力分层
张建中透露,仅当前国内某一个大模型应用的日均 Token 消耗量就已突破 120 万亿。随着大模型和 Agent 的崛起,Token 消耗还将呈指数级攀升。如果所有智能体任务都依赖云端,高昂的算力、带宽成本将让大模型公司与用户难以承受。因此,必须将个人助理、照片管理、本地代码等高频、轻量、隐私敏感的任务卸载到本地,实现本地与云端的算力分层。
2.
第二笔是 " 体验账 ":
物理定律下的延时与隐私红线
智能家居的控制、具身机器人的反应,要求的是 " 毫秒级 " 的实时响应。如果每一次开灯、每一次避障都要把数据打包上传到千里之外的云端智算中心,等待推理后再返回,高延时将直接摧毁用户体验。更重要的是,家庭的摄像头数据、个人的财务报表、企业的核心代码,这些属于绝对隐私的私有资产。只有端侧设备,才能在物理上构建一道数据不出户的安全防火墙。
3.
第三笔是入口账:
从后台 AI 工厂走向前台智能入口
如果 AI 永远停留在云端 API 中,GPU 公司很容易被锁定在后台算力供应商的位置;但当智能体开始进入个人电脑、家庭中枢、边缘设备和机器人终端,端侧就不再只是硬件形态,而是 AI 应用的入口、数据的入口,也是用户交互的入口。
端侧不是摩尔线程云端战略之外的分支,而是其云端算力、MUSA 软件生态和智能体能力向真实场景落地的接口。只有当 AI 能进入客厅、桌面、工厂、学校、车端和机器人终端,云端万卡集群生产出来的智能,才有可能被持续消费、反馈和再训练。
所以,摩尔线程做端侧产品,不是在偏离 GPU 主航道,而是在争夺 Token 时代的 AI 入口权。而且凭借全功能 GPU 的架构优势,做端侧是 " 降维打击 ",逻辑上完全自洽。
支撑这一布局的,是摩尔线程自研 SoC" 长江 "。这颗芯片集成 50TOPS 异构 AI 算力,结合 MTT AIOS、MUSA 软件栈以及 " 小麦 " 等智能体,正式驱动起边缘和端侧智能的 " 三驾马车 ":
AICUBE:重新定义家庭中枢的 " 小立方 "
发布会上最吸睛的消费级产品,当属面向家庭场景的消费级产品—— MTT AICUBE。这个神似 Mac Mini 的紧凑小立方体,是摩尔线程打造的 " 家庭 AI 中枢 "。
它打破了传统设备的边界,创造性地将 " 全域智能体 + AI PC + AI NAS" 三合一,试图把家庭场景中的三类需求重新打包:算力、数据、交互。
作为 AICUBE 的核心交互入口,数字人 " 小麦 " 在本次发布会迎来了脱胎换骨的 "Agent 化 " 升级。升级后的 " 小麦 " 具备情景感知、长上下文检索和多模态情绪识别能力。它内置了 60 余项技能,支持超 36 款 APP 的跨应用控制,提供智慧化的主动服务,让数字人从被动助理变成 " 越用越懂你 " 的有温度的专属智能体。其背后依托三大关键技术支撑:运行于 AI 原生操作系统 MTT AIOS,采用独特的二维拓扑记忆系统,搭载自研 Agent 开源框架 MTClaw。
此外,AICUBE 的全闪存 AI NAS 模块为家庭提供了高安全性的本地数据智能管理;同时,它具备完整的桌面 AI PC 能力,可轻松满足高画质娱乐、在线学习及本地大模型运行需求。
家庭 AI 的关键不是 " 能不能聊天 ",而是能不能围绕家庭数据、家庭设备和家庭任务形成持续服务。照片、视频、文档、家庭成员的日程、智能设备控制,都需要一个既具备本地存储能力,又具备本地推理能力的中枢。AICUBE 的价值,正是在于把 AI 从一个孤立应用变成家庭数字生活的操作入口。该产品将于 6 月 18 日在京东摩尔线程旗舰店开启预售。
AIBOOK 算力本:把智能体带进开发者工作流
AIBOOK 则面向另一类人群:AI 开发者、学习者和智能体应用使用者。
MTT AIBOOK 搭载基于原生 Linux 的 MTT AIOS,并预装 " 龙虾 " 智能体 OpenClaw,AIBOOK 具备 " 工具直达 " 特性,提供 90+ 工具调用接口,降低开发配置成本;并创新支持原生 Linux、虚拟化 Windows 及容器化 Android 多系统,同时提供 LLM/ASR/TTS/OCR 等模型支持的 " 端侧感知 " 能力,一台设备即可覆盖用户的全场景使用需求。
这不是单纯把一台电脑加上 AI 功能,而是在重构 AI PC 的定义。传统 PC 的核心是操作系统和应用软件,如今,AI PC 的核心则可能变成 " 本地智能体 + 开发环境 + 云端模型协同 "。AIBOOK 如果能够把智能体调试、模型调用、本地部署和多系统兼容打通,它面向的就不只是消费级笔记本市场,而是开发者工作流本身。
MTT E300 AI 模组:渗透行业毛细血管
除消费级产品外,专为嵌入式边缘场景设计的 MTT E300 AI 模组同样亮相。该模组支持混合精度计算,可在严苛环境中稳定运行,为工业质检、能源巡检、智慧教室、智能汽车及低空经济等典型场景提供高效、低延迟、强可靠的边缘 AI 能力。
从 AICUBE、AIBOOK 到 E300,摩尔线程在边缘和端侧布局的主线很清楚:让 AI 既能进入家庭,也能进入个人开发环境,还能进入工业、能源、交通、教育、医疗等边缘场景。这也是它打通 " 云—边—端 " 闭环的关键一步——边缘和端侧不是附属品,而是 AI 落地的最后一公里。
具身破壁
全栈具身智能仿真平台,重塑国产 GPU 竞争维度
大模型正在走向物理世界,具身智能(机器人、自动驾驶等)已成为科技巨头的必争之地。然而,传统具身智能研发存在着一个巨大痛点:开发、仿真、训练各环节严重割裂,数据在不同系统间迁移繁琐,Sim2Real(虚拟到现实转换)难度高,硬件试错成本高昂。
此外,具身智能与普通大模型最大的不同,在于它不只需要 " 理解 " 和 " 生成 ",还要完成感知、决策、动作执行,并与真实环境实时交互。机器人、自动驾驶、智能制造、低空经济等场景,都要求 AI 不只是会说,而是会动、会判断、会在物理约束下行动。
这就使具身智能对 GPU 提出了不同于大模型训练的新要求。在传统 AI 竞争中,GPU 主要被视为训练和推理芯片。但在具身智能中,GPU 还需要承担图形渲染、物理仿真、合成数据生成、强化学习训练等任务。
这也正是摩尔线程坚持的 " 全功能 GPU" 路线的绝对主场。其全功能 GPU 基于 MUSA 架构,可以为具身智能提供 " 渲染 + 仿真 + AI 训推 " 一体化通用算力底座。
在这次发布会上,摩尔线程祭出了杀手锏——发布了首个全栈国产化具身智能仿真平台 MT Lambda。
MT Lambda 底层基于全功能 GPU 与 MUSA 架构,中间层整合物理、渲染、AI 三大引擎,上层提供 MT Lambda-Lab 具身策略开发与训练平台,以及 MT Lambda-Sim 高保真物理仿真与渲染平台。
这套平台的价值,在于尝试将原本割裂的环节放进同一个算力和同一个软件栈中处理。其物理引擎包括 MuJoCo-Warp-musa、Newton-musa 和自研 AlphaCore;渲染引擎包括 MT Photon、3DGS 和 MTAGR;AI 引擎则包括 Torch-MUSA、VLA、RL、IL 等能力。
当前,具身智能加速从技术验证迈向工程化与产业化,摩尔线程作为国内极为稀缺的打通 " 大模型训练—仿真模拟—端侧部署 " 生态闭环的 GPU 企业,已经构建起全栈自主、端到端的软硬件技术栈,可以为具身智能提供一站式、安全可靠的国产算力方案。
在具身智能领域,摩尔线程依托自研的夸娥智算集群、仿真平台及端侧 SoC 芯片,已经形成云边端协同的产品与能力布局。同时,摩尔线程积极拓展具身生态 " 朋友圈 ",通过与光轮智能在合成数据等关键领域共筑国产具身智能仿真底座,以及与光线云联合打造 RaysTwins 具身仿真平台等深度合作,共同推动技术成果加速转化落地。
摩尔线程正在把 GPU 从 " 训练芯片 " 扩展为 " 物理 AI 基础设施 "。这对国产 GPU 的意义很大。过去谈到国产 GPU,老生常谈的话题是替代。能不能替代国外训练卡,能不能适配主流框架,能不能跑通大模型。但具身智能提供了一个新的产业窗口:未来机器人和物理 AI 需要的不只是训练算力,而是 " 算、渲、仿 " 一体化能力。谁能提供更完整的底座,谁就可能在下一代 AI 应用中获得新的系统级位置。
云端筑底
夸娥万卡级集群撑起 Token 时代的 AI 工厂
端侧与边缘的全面开花,离不开云端母体的澎湃动力。
在张建中的表述中,Token 时代催生出不同类型的 "AI 工厂 ":有的工厂生产模型,有的工厂提供推理服务,产出 Token;还有一些工厂生产 Agent,服务智能体应用。无论是哪一种工厂,背后都离不开高性能人工智能基础设施。
这也是夸娥(KUAE)万卡级智算集群的战略位置。
大模型训练、推理、AI Coding、AIGC、智能体服务等复杂应用,对底层算力集群的规模、稳定性和工程效率有着近乎苛刻的要求。尤其在 Agentic AI 快速发展的背景下,Token 消耗量正在以难以预测的速度增长。张建中提到,仅某一个应用的日均 Token 消耗量就已突破 120 万亿,这背后对应的是极其庞大的推理服务需求。
作为旗舰级 AI 训推一体智算卡,摩尔线程 MTT S5000 支持 FP8 到 FP64 全精度计算,单卡 AI 稠密算力达 1000 TFLOPS,配备 80GB 显存、1.6TB/s 显存带宽及约 800GB/s 的高速卡间互联带宽。
但张建中强调指出,当前大模型竞争已经从单卡性能进入系统工程竞争,万卡级集群的难点不只是把 GPU 堆起来,还包括高速互联、通信优化、并行训练、故障恢复、资源调度、存储优化和推理服务编排。任何一个环节不稳定,都会放大为训练效率和服务可用性的瓶颈。
" 软件并不是真正的原因,兼容也不是真正的原因,关键是能不能有一个稳定的集群。"张建中表示。这句话点出了国产 GPU 进入产业主战场的关键:不只是能不能跑,而是能不能 7 × 24 小时稳定、高效、可靠地跑。
目前,夸娥万卡级智算集群已交出了亮眼的商业化成绩单:集群浮点运算能力达到 10 Exa-Flops。在 Dense(稠密)大模型训练中的 MFU(模型算力利用率)达 60%,在 MoE(混合专家)大模型上达 40%,训练线性扩展效率高达 95%,有效训练时间占比超过 90%。2026 年第一季度,得益于万卡级集群的规模化落地,摩尔线程单季斩获 6.6 亿元智算集群大额订单,助力 Q1 营收达到 7.38 亿元,同比大增 155.35%。
在推理端,摩尔线程展现了其深厚的生态底蕴与 " 发布即适配 "(Day-0 适配)的响应速度。目前,摩尔线程已全面适配 DeepSeek、GLM、MiniMax、Kimi、Qwen 等国内头部大模型,以及主流的语音、视觉理解及多模态模型。值得一提的是,摩尔线程在推理框架 SGLang 主线代码中获得了官方原生支持,并开源了 vLLM-MUSA,可原生获得摩尔线程 GPU 加速能力,大幅提升推理效率。
这对 AI Coding、AIGC 和智能体应用尤为重要。AI Coding 和 AIGC 的共同特点,是高频、实时、交互式生成。它们不仅需要训练算力,更需要推理侧的吞吐、时延、KV Cache 管理、批处理调度和低时延服务编排。摩尔线程围绕大型推理系统,在推理解耦、KV Cache 管理、批处理调度、低时延服务编排等关键能力方向持续推进。
在发布会现场,两组场景展示生动地诠释了 " 算力即服务 " 的转化率:
Vibe Coding(口语编程):基于 GLM 模型推理服务,用户完全用口语描述需求,即可由多智能体协同生成专属 App,无需手写任何一行代码。
AIGC 微短剧智能生成:呈现了从剧本策划、角色分镜到视频合成的全链路智能生成工作流。
可以看出,摩尔线程的万卡级集群不只是服务于 " 训练大模型 ",也在向 " 生产智能 " 的 AI 工厂演进:训练、推理、智能体、AIGC、AI Coding,都可能成为其算力平台的核心负载。
生态搭桥
MUSA 决定全功能 GPU 的真正上限
把边缘和端侧产品、具身智能仿真平台以及万卡级集群放在一起看,摩尔线程正在从三个方向补齐 AI 基础设施拼图:
第一,在云端,构建万卡级智算集群。这解决大模型训练、推理和复杂 AI 应用的规模化算力问题。
第二,在边缘和端侧,推出 AICUBE、AIBOOK、E300。这解决 AI 如何进入家庭、个人开发环境和行业终端的问题。
第三,在仿真与具身智能层,构建 MT Lambda,解决机器人、自动驾驶、物理 AI 从虚拟训练到现实部署的研发效率问题。
云端是 AI 工厂,边缘和端侧是智能入口,具身智能是物理世界的应用出口。云、边、端宏大叙事的背后,真正让这些硬件产品能够共用同一种语言、实现无缝协同的,是贯穿其全线产品的底层基石—— MUSA(摩尔线程统一系统架构)。
作为贯穿摩尔线程全功能 GPU 硬件与全栈软件体系的底层架构,MUSA 已全面实现对业界主流 CUDA 生态的深度兼容。
对于开发者而言," 迁移成本 " 曾是国产 GPU 无法言说之痛。而全新发布的 MUSA SDK 5.1.0(深度对标 CUDA 12.8),则是一次大力出奇迹的 " 破壁 "。从驱动与运行时层新增 248 个 API、使兼容接口数达到 761 个,到核心数学库的 100% 对齐;从覆盖 55 类核心 AI 算子,到完整支持 PyTorch 全部 3194 个算子…… MUSA 软件栈实现了底层驱动、编译器、算子加速库到训推框架的全链路覆盖。这种极致的兼容性,让国产 GPU 真正具备了 " 即插即用、无感迁移 " 的硬实力。
此外,摩尔线程的软件生态正在从兼容走向 " 反客为主 ",深度融入全球主流开源核心圈:在推理主流生态中,MUSA 不仅正式成为全球主流推理框架 vLLM 的官方后端,更成功合入 SGLang 官方主线并获得 " 原生支持 ",这意味着全球开发者无需任何额外配置,就能在主线代码中直接调用摩尔线程 GPU 的加速红利。
在底层编译与热点算子侧,TileLang-MUSA 成功合入开源主线,升级支持 Triton 3.6 最新版本。诸如 FlashAttention3 等业内顶尖热点算子,在 MUSA 上的运行效率已达到了近乎极致的 95%。
从服务前沿大模型持续训练的稳定性,到科学计算领域的顶流软件 VASP 加速,MUSA 都交出了一份无可挑剔的成熟答卷。
更具前瞻性的是,摩尔线程正在将 AI 引入软件生态自身的建设中。
张建中在发布会上提出一个有意思的判断:有了 Agent,可以让 MUSA 做得更好;而 AI 又可以帮助人类创造更多 AI。换句话说,Agentic AI 不只是摩尔线程产品所服务的对象,也正在成为摩尔线程建设软件生态的工具。
依托 Automusify 智能迁移工具,MUSA 实现了对 Top 100 人工智能与 Top 100 科学计算加速仓库的自动化迁移。全新升级的 MUSACODE AI 编程助手,则通过大模型智能体协同,已经开发并交付超过 10,000 个 Kernel 算子,并基于 TileLang 自动调优 Group GEMM 算子,实现 60% 的性能提升。
过去,软件生态依赖工程师手工迁移、适配和优化;而在 Agentic AI 时代,智能体本身也可以成为生态建设者,帮助国产 GPU 更快补齐算子、工具链和开发者体验。
借由这具强大的 MUSA 统一系统架构灵魂,摩尔线程的 " 云边端 " 铁三角,才真正拥有了合围 Token 时代的终极底气。
结语
回看这场发布会,摩尔线程祭出的不仅是一系列硬核的软硬件产品,而是一套谋划已久的战略闭环:从支撑 DeepSeek、Kimi 等头部大模型高频吞吐的云端智算,到打破数字与现实壁垒的具身智能仿真,再到下沉至千家万户、开发者桌面和行业毛细血管的边缘和端侧智能,无不在证明摩尔线程全功能 GPU 路线的远见。
这是一场属于中国智算力量的卡位战。在这场重塑未来的 Token 经济大潮中,手握 " 云边端 " 全景蓝图的摩尔线程,不仅抢占了产业的最强风眼,更为中国实体经济与 AI 的深度融合,筑起了一道自主可控的坚实底座。
* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第 4413 内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐


登录后才可以发布评论哦
打开小程序可以发布评论哦