智东西
作者 | 程茜
编辑 | 李水青
智东西 12 月 17 日报道,今天,小米发布并开源了最新 MoE 大模型 MiMo-V2-Flash,总参数 309B,激活参数 15B。今日上午,小米 2025 小米人车家全生态合作伙伴大会上,Xiaomi MiMO 大模型负责人罗福莉将首秀并发布主题演讲。
该模型专为推理、编码和 Agent 场景构建,支持混合思维模式,允许用户切换模型是 " 思考 " 还是即时回答。它能一键生成功能齐全的 HTML 网页,并与 Claude Code、Cursor 和 Cline 等氛围编码框架协同。该模型提供 256k 上下文窗口,能够完成数百轮 Agent 交互和工具调用的任务。
基准测试结果显示,MiMo-V2-Flash 的性能基本与 DeepSeek-V3.2 相当,仅在不使用任何工具辅助的 " 人类最后一场考试 " 和创意文本生成评估 ARENA-HARD 中略逊色于 DeepSeek-V3.2,但时延更小。
MiMo-V2-Flash 能以每秒 150 个 token 的速度实现极其快速的推理,价格方面,其每百万输入 token 0.7 元、每百万输出 token 2.1 元。
小米已经开源了 MiMo-V2-Flash 所有内容,并向开发者社区 SGLang 贡献了所有推理代码,API 限时免费。目前,用户可以在网页端免费体验 MiMo-V2-Flash。
开源地址:https://t.co/4Etm0yZKTL
体验地址:
https://aistudio.xiaomimimo.com/#/
技术报告:
https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
一、能写长文、做精美网页,但实测尚不稳定
智东西先实测了下 MiMo 的网页开发能力。
首先,智东西让其生成了一个电商页面,需要包含商品主图轮播、规格选择、价格、库存等要素。代码生成后,MiMo 会在右侧显示预览界面,除查看商品大图功能需要在完整版使用,其他元素几乎和真实的线上购物没有差别。
然后加大难度,智东西让其生成了一个网页版迷宫闯关小游戏,需要包含四个难度,能通过鼠标和键盘控制。在生成的网页里,MiMo 还增加了提示、积分、计时等功能,整个交互体验更加完整。
智东西还让其生成了 " 圣诞树装饰 " 交互网页。网页左侧有彩灯、铃铛、星星、礼物盒、蝴蝶结,可以拖动这些物品装饰到右侧的圣诞树上,也可以一键清空或者直接生成随机装饰。整个画面会不断飘落雪花,还可以播放背景音乐。
对于聊天能力,智东西先让 MiMo" 用程序员的语气安慰一只失恋的猫 ",MiMo 会让小猫 " 清理缓存 " 忘掉不开心的事,还让小猫 " 升级硬件 ",顺便帮小米打了波广告。
最后智东西让 MiMo 生成了一部科幻悬疑题材的 AI 短剧剧本。一上来,MiMo 就给出了深潜记忆提取头盔、真理之环 AI 伦理防火墙两个关键要素,通过检索发现,MiMo 在后续剧情中将这两大物体融入进去,直接作为推动剧情发展的关键。
此外,小米在官方博客也放出了不少案例。
首先是网页生成能力上,其第一个官方案例是 " 用 HTML 生成一个漂亮、可用的 macOS 模拟操作系统 "。在最终的生成界面中,包含了基本的 macOS 风格桌面图标,还可以切换背景、打开 Finder。
其次是,打造 " 豪华互动圣诞树 " 高保真 3D 网页应用,并要求视觉效果奢华,MiMo 的生成结果能切换圣诞树和混沌状态,支持手势交互等。
第三个演示是用 HTML 创建交互式太阳系探测器。当用户点击每个球体就会出现行星的简介。
智东西也让 MiMo" 用 HTML 创建一个教育性的交互式太阳系探索器 ",不过最后的结果并不如官方演示的质感。其第一次生成时行星无法选择,重新生成后可选择行星下面的选项直接不见了。
聊天能力方面,MiMo 既能回答 " 大语言模型拥有知识吗 " 这类硬核科普类知识。
MiMo 还可以回答 " 要不要吃长生不老药丸 ",MiMo 还会站在人类视角分析要不要吃、可能有哪些条件。
此外,该模型还具备长文本撰写能力,其可以 " 写一个关于误送信件的忧郁爱情故事 "。
MiMo 还能写深刻的非虚构作品,如以一位独居老人为中心,以他一周内收到的邮件为主,探讨现代社会中的孤独。
二、专为推理、编码和 Agent 构建,与 K2 Thinking 和 DeepSeek V3.2 Thinking 相当
在数学竞赛 AIME 2025 和科学知识基准 GPQA-Diamond 中,MiMo-V2-Flash 的表现是开源模型中前二。在软件工程能力的 SWE 验证与多语言基准测试中,MiMo-V2-Flash 在所有开源模型中位列第一,与全球顶尖闭源模型齐名。
从总的基准测试结果来看,MiMo-V2-Flash 在大多数推理基准测试中的性能可与 K2 Thinking 和 DeepSeek V3.2 Thinking 相当,同时保持高质量开放式回答的竞争力。
在长上下文评估中,MiMo 的模型超过了 K2 Thinking。
在 Agent 任务中,MiMo-V2-Flash 在 SWE-Bench Verified 中超越所有开源竞争对手,性能接近 GPT-5-High。在 SWE-Bench 多语版本中,MiMo-V2-Flash 解决了 71.7% 的问题。
在搜索 Agent 评估方面,MiMo-V2-Flash 在 BrowseComp 上得分为 45.4,配合上下文管理进一步提升至 58.3。
小米已经共享所有推理代码至 SGLang 并开源,社区实测单机结果如下:
在 Prefill 单机吞吐约 50000 toks/s 的条件下,不同 Context Length 都取得了优越的 TTFT 性能。
得益于 3 层 MTP,在 16K 的 Context Length 情况下,Decode 可以做到单机吞吐 5000 ~ 15000 toks/s 的同时达到 151~115 toks/s 的单请求吞吐。
三、引入 MTP 训练,后训练阶段提出 MOPD
MiMo-V2-Flash 的效率提升是因为其为高通量推理设计了创新架构进步。
该模型全局注意力(GA)和滑动窗口注意力(SWA)的 1:5 混合结构。小米 MiMo 研究团队大量的实证结果表明,SWA 简单、高效且易于使用,在通用任务、长上下文负载和推理方面整体表现优于线性注意力。
它还提供固定大小的 KV 缓存,便于与现有的训练和推理基础设施集成。
研究人员重新定义了并行解码,以实现极高的输出 token 吞吐量:通过引入多词元预测(MTP)训练,提升了基础模型的能力,并在推理过程中并行验证了 MTP。
MiMo-V2-Flash 利用 MTP 作为原生草稿模型进行自我推测解码,实现了实际部署加速。
大语言模型的解码过程本质上受限于内存,这是由其低运算密度特性决定的。业界通常采用批量级并行技术提升前馈网络(FFN)的运算密度,但该方法对注意力计算环节并无增益,原因在于每个推理请求都需维护独立的 KV cache。
相比之下,MTP 技术通过一次性生成多个草稿 token,同步提升了前馈网络(FFN)与注意力机制的运算密度,后续主模型可对这些草稿 token 进行并行验证。这种方案能够实现 token 级并行计算,且不会增加 KV cache 的输入输出开销。
在 MiMo-V2-Flash 模型中,MTP 模块采用稠密前馈网络来控制参数量,同时使用滑动窗口注意力机制,从而降低 KV cache 与注意力计算的成本。
实测数据显示,3 层结构的 MTP 模块可达到 2.8-3.6 个 token 的有效接受长度,并实现 2.0-2.6 倍的推理速度提升。
MiMo-V2-Flash 预训练使用 FP8 混合精度和原生 32k 序列长度,使用 27T token 进行训练。
在后训练阶段,为高效拓展强化学习的计算规模,同时增强模型的推理能力与智能体自主决策能力,研究人员提出了多教师在线策略蒸馏(MOPD)。
该范式先通过监督微调(SFT)或强化学习(RL)技术得到各领域的专家教师模型,再让学生模型基于自身的策略分布进行采样,并利用多个教师模型提供的稠密型 token 级奖励信号完成优化。
MOPD 训练只需不到传统 SFT+RL 流程的 1/50 计算资源,即可匹配教师模型的峰值表现。
此外,MOPD 采用解耦设计,支持新教师与 ORM(教学与学习)的灵活整合,自然实现 " 教学与学习 " 闭环迭代,精炼学生模式可演变为更强的教师,实现持续自我提升的能力。
结语:小米大模型研发踩下油门
小米凭借混合注意力机制与 MOPD 等技术创新,大幅优化大模型的研发成本与运行效率;同时开源全部相关成果,有效降低行业研发门槛。此外,近几个月以来,Xiaomi MiMo 大模型团队踩下油门,发布数篇论文并开源多个模型。
12 月 5 日,小米集团合伙人、总裁卢伟冰透露,公司 AI 大模型业务过去四个季度投入环比增速超 50%,目前进展 " 已超出董事会预期 ",并宣布将 AI 与 " 现实世界深度结合 " 列为未来十年核心战略。同时,小米正式启动全球人才招募计划,单岗位薪酬上限开至千万元级别,目标 " 在最短时间内补齐大模型尖端人才缺口 "。


登录后才可以发布评论哦
打开小程序可以发布评论哦