Token为王时代,摩尔线程亮出“云边端”全栈野心

今天在 AI 圈，很多人每天一睁眼，最关心的就是一件事：" 我们今天又烧了多少 Token？"是的，我们正在跨入一个崭新的 " 词元（Token）时代 "。Token 正在成为 AI 时代全新的生产单位，而算力需求，则被 Agentic AI（智能体）成倍地放大。

年初开源智能体 " 龙虾（OpenClaw）" 的火爆，几乎把所有从业者、每一家科技大厂，都毫无悬念地裹挟进了这场智能体风暴。

正如摩尔线程 CEO 张建中在 5 月 18 日的产品发布会上所言，现在的 IoT，已经不是简单的 Internet of Things（物联网），而是 Intelligence of Things（万物智能）。当原本 " 不思考 " 的设备开始具备理解和对话的能力，万物智能的下沉速度超乎想象。但，硬币的另一面是残酷的。狂欢背后，是整个智算产业的 " 算力重压 "。

面对这场席卷而来的 Token 海啸，作为智算基石的国产 GPU 厂商，究竟该扮演什么角色？

或许摩尔线程此次 " 词元时代，万物智能 " 的年度产品发布会，能够给全行业提供一个观察切口。随着云端万卡级集群、边缘和终端三驾马车以及具身智能仿真平台的重磅发布，摩尔线程的战略图景已然清晰——以全功能 GPU 为坚实底座，筑牢 " 云、边、端 " 三位一体的闭环，全速合围 Token 时代。

边缘和终端突围

三笔账，看懂摩尔线程的端侧 " 卡位战 "

过去两年智算中心的火热让 GPU 公司普遍 " 逐云而居 "。但在这场发布会上，摩尔线程却把很大篇幅留给了边缘和终端，一口气甩出了三件核心武器：MTT AICUBE、MTT AIBOOK 与 MTT E300，全面覆盖个人、家庭与行业边缘场景。

一家国产 GPU 公司，为什么要去做终端消费产品？如果站在传统 GPU 公司视角，这似乎是拉长了战线。但如果放到 Token 时代来看，摩尔线程在端侧的布局，恰恰是看清了不可逆转的三笔 " 硬账 "：

第一笔是经济账：

高频 Token 消耗倒逼算力分层

张建中透露，仅当前国内某一个大模型应用的日均 Token 消耗量就已突破 120 万亿。随着大模型和 Agent 的崛起，Token 消耗还将呈指数级攀升。如果所有智能体任务都依赖云端，高昂的算力、带宽成本将让大模型公司与用户难以承受。因此，必须将个人助理、照片管理、本地代码等高频、轻量、隐私敏感的任务卸载到本地，实现本地与云端的算力分层。

第二笔是 " 体验账 "：

物理定律下的延时与隐私红线

智能家居的控制、具身机器人的反应，要求的是 " 毫秒级 " 的实时响应。如果每一次开灯、每一次避障都要把数据打包上传到千里之外的云端智算中心，等待推理后再返回，高延时将直接摧毁用户体验。更重要的是，家庭的摄像头数据、个人的财务报表、企业的核心代码，这些属于绝对隐私的私有资产。只有端侧设备，才能在物理上构建一道数据不出户的安全防火墙。

第三笔是入口账：

从后台 AI 工厂走向前台智能入口

如果 AI 永远停留在云端 API 中，GPU 公司很容易被锁定在后台算力供应商的位置；但当智能体开始进入个人电脑、家庭中枢、边缘设备和机器人终端，端侧就不再只是硬件形态，而是 AI 应用的入口、数据的入口，也是用户交互的入口。

端侧不是摩尔线程云端战略之外的分支，而是其云端算力、MUSA 软件生态和智能体能力向真实场景落地的接口。只有当 AI 能进入客厅、桌面、工厂、学校、车端和机器人终端，云端万卡集群生产出来的智能，才有可能被持续消费、反馈和再训练。

所以，摩尔线程做端侧产品，不是在偏离 GPU 主航道，而是在争夺 Token 时代的 AI 入口权。而且凭借全功能 GPU 的架构优势，做端侧是 " 降维打击 "，逻辑上完全自洽。

支撑这一布局的，是摩尔线程自研 SoC" 长江 "。这颗芯片集成 50TOPS 异构 AI 算力，结合 MTT AIOS、MUSA 软件栈以及 " 小麦 " 等智能体，正式驱动起边缘和端侧智能的 " 三驾马车 "：

AICUBE：重新定义家庭中枢的 " 小立方 "

发布会上最吸睛的消费级产品，当属面向家庭场景的消费级产品—— MTT AICUBE。这个神似 Mac Mini 的紧凑小立方体，是摩尔线程打造的 " 家庭 AI 中枢 "。

它打破了传统设备的边界，创造性地将 " 全域智能体 + AI PC + AI NAS" 三合一，试图把家庭场景中的三类需求重新打包：算力、数据、交互。

作为 AICUBE 的核心交互入口，数字人 " 小麦 " 在本次发布会迎来了脱胎换骨的 "Agent 化 " 升级。升级后的 " 小麦 " 具备情景感知、长上下文检索和多模态情绪识别能力。它内置了 60 余项技能，支持超 36 款 APP 的跨应用控制，提供智慧化的主动服务，让数字人从被动助理变成 " 越用越懂你 " 的有温度的专属智能体。其背后依托三大关键技术支撑：运行于 AI 原生操作系统 MTT AIOS，采用独特的二维拓扑记忆系统，搭载自研 Agent 开源框架 MTClaw。

此外，AICUBE 的全闪存 AI NAS 模块为家庭提供了高安全性的本地数据智能管理；同时，它具备完整的桌面 AI PC 能力，可轻松满足高画质娱乐、在线学习及本地大模型运行需求。

家庭 AI 的关键不是 " 能不能聊天 "，而是能不能围绕家庭数据、家庭设备和家庭任务形成持续服务。照片、视频、文档、家庭成员的日程、智能设备控制，都需要一个既具备本地存储能力，又具备本地推理能力的中枢。AICUBE 的价值，正是在于把 AI 从一个孤立应用变成家庭数字生活的操作入口。该产品将于 6 月 18 日在京东摩尔线程旗舰店开启预售。

AIBOOK 算力本：把智能体带进开发者工作流

AIBOOK 则面向另一类人群：AI 开发者、学习者和智能体应用使用者。

MTT AIBOOK 搭载基于原生 Linux 的 MTT AIOS，并预装 " 龙虾 " 智能体 OpenClaw，AIBOOK 具备 " 工具直达 " 特性，提供 90+ 工具调用接口，降低开发配置成本；并创新支持原生 Linux、虚拟化 Windows 及容器化 Android 多系统，同时提供 LLM/ASR/TTS/OCR 等模型支持的 " 端侧感知 " 能力，一台设备即可覆盖用户的全场景使用需求。

这不是单纯把一台电脑加上 AI 功能，而是在重构 AI PC 的定义。传统 PC 的核心是操作系统和应用软件，如今，AI PC 的核心则可能变成 " 本地智能体 + 开发环境 + 云端模型协同 "。AIBOOK 如果能够把智能体调试、模型调用、本地部署和多系统兼容打通，它面向的就不只是消费级笔记本市场，而是开发者工作流本身。

MTT E300 AI 模组：渗透行业毛细血管

除消费级产品外，专为嵌入式边缘场景设计的 MTT E300 AI 模组同样亮相。该模组支持混合精度计算，可在严苛环境中稳定运行，为工业质检、能源巡检、智慧教室、智能汽车及低空经济等典型场景提供高效、低延迟、强可靠的边缘 AI 能力。

从 AICUBE、AIBOOK 到 E300，摩尔线程在边缘和端侧布局的主线很清楚：让 AI 既能进入家庭，也能进入个人开发环境，还能进入工业、能源、交通、教育、医疗等边缘场景。这也是它打通 " 云—边—端 " 闭环的关键一步——边缘和端侧不是附属品，而是 AI 落地的最后一公里。

具身破壁

全栈具身智能仿真平台，重塑国产 GPU 竞争维度

大模型正在走向物理世界，具身智能（机器人、自动驾驶等）已成为科技巨头的必争之地。然而，传统具身智能研发存在着一个巨大痛点：开发、仿真、训练各环节严重割裂，数据在不同系统间迁移繁琐，Sim2Real（虚拟到现实转换）难度高，硬件试错成本高昂。

此外，具身智能与普通大模型最大的不同，在于它不只需要 " 理解 " 和 " 生成 "，还要完成感知、决策、动作执行，并与真实环境实时交互。机器人、自动驾驶、智能制造、低空经济等场景，都要求 AI 不只是会说，而是会动、会判断、会在物理约束下行动。

这就使具身智能对 GPU 提出了不同于大模型训练的新要求。在传统 AI 竞争中，GPU 主要被视为训练和推理芯片。但在具身智能中，GPU 还需要承担图形渲染、物理仿真、合成数据生成、强化学习训练等任务。

这也正是摩尔线程坚持的 " 全功能 GPU" 路线的绝对主场。其全功能 GPU 基于 MUSA 架构，可以为具身智能提供 " 渲染 + 仿真 + AI 训推 " 一体化通用算力底座。

在这次发布会上，摩尔线程祭出了杀手锏——发布了首个全栈国产化具身智能仿真平台 MT Lambda。

MT Lambda 底层基于全功能 GPU 与 MUSA 架构，中间层整合物理、渲染、AI 三大引擎，上层提供 MT Lambda-Lab 具身策略开发与训练平台，以及 MT Lambda-Sim 高保真物理仿真与渲染平台。

这套平台的价值，在于尝试将原本割裂的环节放进同一个算力和同一个软件栈中处理。其物理引擎包括 MuJoCo-Warp-musa、Newton-musa 和自研 AlphaCore；渲染引擎包括 MT Photon、3DGS 和 MTAGR；AI 引擎则包括 Torch-MUSA、VLA、RL、IL 等能力。

当前，具身智能加速从技术验证迈向工程化与产业化，摩尔线程作为国内极为稀缺的打通 " 大模型训练—仿真模拟—端侧部署 " 生态闭环的 GPU 企业，已经构建起全栈自主、端到端的软硬件技术栈，可以为具身智能提供一站式、安全可靠的国产算力方案。

在具身智能领域，摩尔线程依托自研的夸娥智算集群、仿真平台及端侧 SoC 芯片，已经形成云边端协同的产品与能力布局。同时，摩尔线程积极拓展具身生态 " 朋友圈 "，通过与光轮智能在合成数据等关键领域共筑国产具身智能仿真底座，以及与光线云联合打造 RaysTwins 具身仿真平台等深度合作，共同推动技术成果加速转化落地。

摩尔线程正在把 GPU 从 " 训练芯片 " 扩展为 " 物理 AI 基础设施 "。这对国产 GPU 的意义很大。过去谈到国产 GPU，老生常谈的话题是替代。能不能替代国外训练卡，能不能适配主流框架，能不能跑通大模型。但具身智能提供了一个新的产业窗口：未来机器人和物理 AI 需要的不只是训练算力，而是 " 算、渲、仿 " 一体化能力。谁能提供更完整的底座，谁就可能在下一代 AI 应用中获得新的系统级位置。

云端筑底

夸娥万卡级集群撑起 Token 时代的 AI 工厂

端侧与边缘的全面开花，离不开云端母体的澎湃动力。

在张建中的表述中，Token 时代催生出不同类型的 "AI 工厂 "：有的工厂生产模型，有的工厂提供推理服务，产出 Token；还有一些工厂生产 Agent，服务智能体应用。无论是哪一种工厂，背后都离不开高性能人工智能基础设施。

这也是夸娥（KUAE）万卡级智算集群的战略位置。

大模型训练、推理、AI Coding、AIGC、智能体服务等复杂应用，对底层算力集群的规模、稳定性和工程效率有着近乎苛刻的要求。尤其在 Agentic AI 快速发展的背景下，Token 消耗量正在以难以预测的速度增长。张建中提到，仅某一个应用的日均 Token 消耗量就已突破 120 万亿，这背后对应的是极其庞大的推理服务需求。

作为旗舰级 AI 训推一体智算卡，摩尔线程 MTT S5000 支持 FP8 到 FP64 全精度计算，单卡 AI 稠密算力达 1000 TFLOPS，配备 80GB 显存、1.6TB/s 显存带宽及约 800GB/s 的高速卡间互联带宽。

但张建中强调指出，当前大模型竞争已经从单卡性能进入系统工程竞争，万卡级集群的难点不只是把 GPU 堆起来，还包括高速互联、通信优化、并行训练、故障恢复、资源调度、存储优化和推理服务编排。任何一个环节不稳定，都会放大为训练效率和服务可用性的瓶颈。

" 软件并不是真正的原因，兼容也不是真正的原因，关键是能不能有一个稳定的集群。"张建中表示。这句话点出了国产 GPU 进入产业主战场的关键：不只是能不能跑，而是能不能 7 × 24 小时稳定、高效、可靠地跑。

目前，夸娥万卡级智算集群已交出了亮眼的商业化成绩单：集群浮点运算能力达到 10 Exa-Flops。在 Dense（稠密）大模型训练中的 MFU（模型算力利用率）达 60%，在 MoE（混合专家）大模型上达 40%，训练线性扩展效率高达 95%，有效训练时间占比超过 90%。2026 年第一季度，得益于万卡级集群的规模化落地，摩尔线程单季斩获 6.6 亿元智算集群大额订单，助力 Q1 营收达到 7.38 亿元，同比大增 155.35%。

在推理端，摩尔线程展现了其深厚的生态底蕴与 " 发布即适配 "（Day-0 适配）的响应速度。目前，摩尔线程已全面适配 DeepSeek、GLM、MiniMax、Kimi、Qwen 等国内头部大模型，以及主流的语音、视觉理解及多模态模型。值得一提的是，摩尔线程在推理框架 SGLang 主线代码中获得了官方原生支持，并开源了 vLLM-MUSA，可原生获得摩尔线程 GPU 加速能力，大幅提升推理效率。

这对 AI Coding、AIGC 和智能体应用尤为重要。AI Coding 和 AIGC 的共同特点，是高频、实时、交互式生成。它们不仅需要训练算力，更需要推理侧的吞吐、时延、KV Cache 管理、批处理调度和低时延服务编排。摩尔线程围绕大型推理系统，在推理解耦、KV Cache 管理、批处理调度、低时延服务编排等关键能力方向持续推进。

在发布会现场，两组场景展示生动地诠释了 " 算力即服务 " 的转化率：

Vibe Coding（口语编程）：基于 GLM 模型推理服务，用户完全用口语描述需求，即可由多智能体协同生成专属 App，无需手写任何一行代码。

AIGC 微短剧智能生成：呈现了从剧本策划、角色分镜到视频合成的全链路智能生成工作流。

可以看出，摩尔线程的万卡级集群不只是服务于 " 训练大模型 "，也在向 " 生产智能 " 的 AI 工厂演进：训练、推理、智能体、AIGC、AI Coding，都可能成为其算力平台的核心负载。

生态搭桥

MUSA 决定全功能 GPU 的真正上限

把边缘和端侧产品、具身智能仿真平台以及万卡级集群放在一起看，摩尔线程正在从三个方向补齐 AI 基础设施拼图：

第一，在云端，构建万卡级智算集群。这解决大模型训练、推理和复杂 AI 应用的规模化算力问题。

第二，在边缘和端侧，推出 AICUBE、AIBOOK、E300。这解决 AI 如何进入家庭、个人开发环境和行业终端的问题。

第三，在仿真与具身智能层，构建 MT Lambda，解决机器人、自动驾驶、物理 AI 从虚拟训练到现实部署的研发效率问题。

云端是 AI 工厂，边缘和端侧是智能入口，具身智能是物理世界的应用出口。云、边、端宏大叙事的背后，真正让这些硬件产品能够共用同一种语言、实现无缝协同的，是贯穿其全线产品的底层基石—— MUSA（摩尔线程统一系统架构）。

作为贯穿摩尔线程全功能 GPU 硬件与全栈软件体系的底层架构，MUSA 已全面实现对业界主流 CUDA 生态的深度兼容。

对于开发者而言，" 迁移成本 " 曾是国产 GPU 无法言说之痛。而全新发布的 MUSA SDK 5.1.0（深度对标 CUDA 12.8），则是一次大力出奇迹的 " 破壁 "。从驱动与运行时层新增 248 个 API、使兼容接口数达到 761 个，到核心数学库的 100% 对齐；从覆盖 55 类核心 AI 算子，到完整支持 PyTorch 全部 3194 个算子…… MUSA 软件栈实现了底层驱动、编译器、算子加速库到训推框架的全链路覆盖。这种极致的兼容性，让国产 GPU 真正具备了 " 即插即用、无感迁移 " 的硬实力。

此外，摩尔线程的软件生态正在从兼容走向 " 反客为主 "，深度融入全球主流开源核心圈：在推理主流生态中，MUSA 不仅正式成为全球主流推理框架 vLLM 的官方后端，更成功合入 SGLang 官方主线并获得 " 原生支持 "，这意味着全球开发者无需任何额外配置，就能在主线代码中直接调用摩尔线程 GPU 的加速红利。

在底层编译与热点算子侧，TileLang-MUSA 成功合入开源主线，升级支持 Triton 3.6 最新版本。诸如 FlashAttention3 等业内顶尖热点算子，在 MUSA 上的运行效率已达到了近乎极致的 95%。

从服务前沿大模型持续训练的稳定性，到科学计算领域的顶流软件 VASP 加速，MUSA 都交出了一份无可挑剔的成熟答卷。

更具前瞻性的是，摩尔线程正在将 AI 引入软件生态自身的建设中。

张建中在发布会上提出一个有意思的判断：有了 Agent，可以让 MUSA 做得更好；而 AI 又可以帮助人类创造更多 AI。换句话说，Agentic AI 不只是摩尔线程产品所服务的对象，也正在成为摩尔线程建设软件生态的工具。

依托 Automusify 智能迁移工具，MUSA 实现了对 Top 100 人工智能与 Top 100 科学计算加速仓库的自动化迁移。全新升级的 MUSACODE AI 编程助手，则通过大模型智能体协同，已经开发并交付超过 10,000 个 Kernel 算子，并基于 TileLang 自动调优 Group GEMM 算子，实现 60% 的性能提升。

过去，软件生态依赖工程师手工迁移、适配和优化；而在 Agentic AI 时代，智能体本身也可以成为生态建设者，帮助国产 GPU 更快补齐算子、工具链和开发者体验。

借由这具强大的 MUSA 统一系统架构灵魂，摩尔线程的 " 云边端 " 铁三角，才真正拥有了合围 Token 时代的终极底气。

结语

回看这场发布会，摩尔线程祭出的不仅是一系列硬核的软硬件产品，而是一套谋划已久的战略闭环：从支撑 DeepSeek、Kimi 等头部大模型高频吞吐的云端智算，到打破数字与现实壁垒的具身智能仿真，再到下沉至千家万户、开发者桌面和行业毛细血管的边缘和端侧智能，无不在证明摩尔线程全功能 GPU 路线的远见。

这是一场属于中国智算力量的卡位战。在这场重塑未来的 Token 经济大潮中，手握 " 云边端 " 全景蓝图的摩尔线程，不仅抢占了产业的最强风眼，更为中国实体经济与 AI 的深度融合，筑起了一道自主可控的坚实底座。

* 免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第 4413 内容，欢迎关注。

加星标⭐️第一时间看推送

求推荐

宙世代

一起剪

相关标签