智东西
作者 | 陈骏达
编辑 | 云鹏
智东西 7 月 22 日报道,今天,月之暗面公布了其最新旗舰模型 Kimi K2 的完整技术报告。作为一款国产开源万亿参数大模型,Kimi K2 在发布之后迅速爆火,并在大模型竞技场上接替新版 DeepSeek-R1,登顶全球开源模型榜首。
技术报告透露,Kimi K2 在 15.5 万亿 token 上进行了训练。为实现这一量级的训练,月之暗面设计了 MuonClip 优化器,从而解决了大模型训练中常见的注意力爆炸与损失尖峰问题,提升了预训练的稳定性和 token 利用率。数据方面,月之暗面打造了一条改写流水线,让模型扩增高质量 token 的总量。
在后训练阶段,Kimi K2 合成了涵盖数万工具与任务的多轮交互数据用于训练,再进入强化学习阶段,让模型在真实与合成环境中不断试错、反思与进化。这一训练过程让 K2 能在不开启思维链的前提下,于多项基准测试中获得超越顶尖开源模型,比肩头部闭源模型的成绩。
具体来看,在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2 的表现超过了 DeepSeek-V3-0324、Qwen-235B-A22B 等模型,但在部分基准测试中略逊于 Claude 4 Opus、OpenAI GPT-4.1 等模型。基准测试结果显示,Kimi-K2 一共获得了 14 项全球 SOTA,24 项开源模型 SOTA。
在这份 32 页技术报告的末尾,月之暗面创始人兼 CEO 杨植麟出现在作者清单中,更令人意外的是,Kimi K2 也被列入了技术报告的作者之列。
技术报告链接:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
一、大模型智能步入新阶段,数据效率成提升瓶颈
月之暗面在技术报告中提出,大模型正在从被动模仿人类文本转向 Agentic Intelligence 阶段,模型逐渐具备了在复杂、动态的环境中自主感知、规划、推理并行动的能力。
这一转变意味着模型不再局限于静态的人类标注数据,而是通过与环境的持续交互,主动习得超出训练分布的新技能,并依据经验不断调整行为。
然而,Agentic Intelligence 给预训练和后训练阶段都带来了一定的挑战。
预训练阶段,研究者必须在高质量数据日益稀缺的条件下,为模型注入足够通用的先验知识,因此 token 效率(每个 token 带来的学习信号)成为决定规模法则的关键因素。
在后训练阶段,研究者则需要把这些知识转化为可执行的行为,而多步推理、长期规划、工具调用等智能体能力在自然数据中稀缺且昂贵。
因此,业界亟需能够大规模合成结构化、高质量智能体轨迹的系统,并辅以融合偏好与自我批判的通用强化学习框架,弥补静态对齐与开放环境之间的差异。
二、提出 MuonClip 优化器,通过改写扩充高质量数据
针对上述问题,月之暗面首先在预训练阶段采用高效的 Muon 优化器进行训练,该优化器具备高效率、权重衰减少等优势。
Muon 优化器由海外 AI 学者 Keller Jordan(现已加入 OpenAI)提出,月之暗面曾在今年 2 月对其进行改进并开源。后者在实验中发现,在相同计算预算和模型规模下,Muon 显著优于 AdamW 等经典优化器,是提升大模型训练 token 利用效率的理想选择。
不过,Muon 在扩大规模时暴露出训练不稳定的问题,特别是注意力 logits 爆炸现象,注意力得分(logits)会在训练过程中无限增大,导致各种后续问题。
月之暗面进一步提出了权重裁剪机制 QK-Clip,能在每次参数更新后,根据当前批次中每个注意力头的最大 logit 值,动态缩放 Query 和 Key 的投影权重。
最终,该团队将 Muon、权重衰减、RMS 匹配与 QK-Clip 集成,形成统一优化器 MuonClip。实验数据表明,加入 QK-Clip 的训练损失曲线平滑,无损失尖峰(下图右侧)。
预训练数据方面,月之暗面引入了一套合成数据生成策略以提高 token 效用。具体而言,该团队设计了一条改写流水线,可在不明显过拟合的前提下,扩增高质量 token 的总量。
例如,在知识型数据上,为提升高质量知识 token 的效用,月之暗面向模型提供了风格与视角多样的提示词,引导大模型以不同风格、从不同视角对原文进行忠实改写。同时,为保持长文档的全局连贯性并避免信息丢失,模型采用按块自回归重写策略。
在训练前,团队还会通过语义对齐检查确保改写片段与原文内容一致,作为初步质控。
为了强化数学推理能力,月之暗面把高质量数学文档改写成 " 学习笔记 " 风格,并通过将其他语言的高质量数学资料翻译成英文来进一步扩大数据多样性。
最终,Kimi K2 一共使用了 15.5 T token 的预训练语料,涵盖 Web 文本、代码、数学、知识四大领域,且全部经过正确性与质量验证。
模型架构方面,Kimi K2 整体架构与 DeepSeek-V3 相似,采用多头隐式注意力(MLA)作为注意力机制。月之暗面发现,在保持激活参数量不变的前提下,继续提高稀疏度仍能显著降低损失,因此把专家总数从 DeepSeek-V3 的 256 提升到 384;同时为了减少推理开销,将注意力头数从 128 降至 64。下图是 Kimi K2 与 DeepSeek-V3 的核心结构对比。
Kimi K2 在英伟达 H800 GPU 集群完成了训练,并使用了统一并行配置、通信优化等策略,但并未披露集群规模。
三、为工具调用打造海量数据,模型获 14 项全球 SOTA
Kimi K2 的后训练由两个核心阶段组成。
在有监督微调阶段,Kimi K2 依旧使用了 Muon 优化器,并构建了一个覆盖多领域的大规模指令微调数据集,重点是提示词多样性和响应质量。这些数据使用了 K1.5 及其他领域专家模型生成候选回答,再由大模型或人工进行质量评估与过滤。
月之暗面特别为工具使用(Tool Use)能力构建了一个大规模 Agentic 数据合成流水线,整合 3000+ 真实 MCP 工具和 2 万 + 合成工具,生成数千个不同能力组合的智能体与配套任务。
紧接着,该团队模拟多轮交互,并过滤出高质量的智能体轨迹,然后在代码 / 软件工程等场景中,使用真实执行环境提升数据真实性。
强化学习阶段,月之暗面的目标是在可验证奖励任务与主观偏好任务中提升模型能力。
在可验证的任务上,该团队打造了一个可验证奖励的 " 训练场 ",用于提升模型在数学、STEM、逻辑任务、复杂指令遵循、编程等领域的能力。
针对无明确答案的任务(如创意写作、开放问答),月之暗面引入了模型自评机制,让模型通过对比自身输出并打分。
RL 算法优化方面,月之暗面限制了每任务最大 token 数,避免冗长输出,并利用 PTX 损失函数防止模型在训练过程中遗忘高价值数据。该团队还在后训练阶段逐步降低模型的 temperature,从而降低随机性,确保模型输出的可靠性和一致性。
后训练阶段,月之暗面还对训练基础设施进行了针对性设计,采用协同架构,将训练和推理引擎部署在同一节点,动态分配 GPU 资源以提升效率。针对长周期任务,该团队采用并行 Rollout 和分段执行优化 GPU 利用率,并通过标准化接口支持多样化环境,实现高效的大规模 RL 训练。
基准测试的结果印证了上述训练流程的效果。
在编程领域,Kimi-K2-Instruct 在 SWE-bench Verified 和 LiveCodeBench v6 的成绩与商业模型的差距进一步缩小,在真实世界软件开发和竞赛级编程挑战展现出实战能力、
Kimi-K2-Instruct 还在多轮工具使用评测、通用知识、数学推理、指令遵循和长上下文任务中获得不错的表现。其 MMLU 得分(89.5%)、IFEval 得分(89.8%) 等超越开源竞品,LMSYS Arena 用户评测中位列开源模型榜首。
技术报告中放出了 Kimi-K2-Instruct 与其他开源、闭源模型的基准测试对比,加粗成绩代表全球 SOTA,加粗并划线的成绩代表开源模型 SOTA。Kimi-K2-Instruct 获得 14 项全球 SOTA,24 项开源模型 SOTA。
结语:中国开源模型再突破
近期,中国开源模型在能力、国际影响力上不断实现突破。本次,Kimi K2 已经发布后,便在国内外开源社区上吸引了不少人下载、体验。美国 AI 搜索独角兽 Perplexity 的创始人兼 CEO 甚至称,有计划在 Kimi K2 的基础上进行进一步训练。
我们也看到,本次 Kimi K2 的模型架构在 DeepSeek-V3 的基础上实现了创新,二者同属国产开源模型。随着 Kimi 逐步加入开源行列并开放旗舰级别的模型,国产开源 AI 生态中又多了一家重要的参与者。
登录后才可以发布评论哦
打开小程序可以发布评论哦