量子位 10小时前
“DeepSeek-V3基于我们的架构打造” 欧版OpenAI CEO逆天发言被喷了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

"DeepSeek-V3 是在 Mistral 提出的架构上构建的。"

欧洲版 OpenAI CEO 此言一出,炸了锅了。

网友们的反应 be like:

这还是温和派,还有更直接的吐槽:Mistral 在胡说八道些什么……

还没吃上瓜的家人们别着急,咱们从头捋一捋这事儿:

在最近一次访谈中,当被问到如何看待中国开源 AI 的强势发展时,Mistral 联合创始人、CEO Arthur Mensch 这样回应:

中国在 AI 领域实力强劲。我们是最早发布开源模型的公司之一,而他们发现这是一个很好的策略。

开源不是真正的竞争,大家在彼此的基础上不断进步。

比如我们在 2024 年初发布了首个稀疏混合专家模型(MoE),DeepSeek-V3 以及之后的版本都是在此基础上构建的。它们采用的是相同的架构,而我们把重建这种架构所需的一切都公开了。

Arthur Mensch 很自信,但网友们听完表示:桥豆麻袋,这不对劲。

且不说 DeepSeek MoE 论文的发布时间和 Arthur Mensch 提到的 Mixtral 论文相差仅 3 天:

认真细扒起来,两种架构实际上思路也并不相同。

并且此前,Mistral 3 Large 还曾被扒出基本上照搬了 DeepSeek-V3 采用的架构……

△图源:@Sebastian Raschka

数学公式揭示区别

甭管怎么说,Mistral 这发言一出来,严谨的网友们第一反应还是精准论证。

两篇论文都在 arXiv 上立等可看,那么就是一手直接开扒。

Arthur Mensch 说的没错的一点是,这两篇发表时间相差 3 天的论文,研究的都是稀疏混合专家系统(SMoE),目的都是通过稀疏激活来降低计算成本并提升模型能力。

但两者在出发点上就有所不同——

Mixtral 偏向于工程思维,重点放在证明强大的基础模型 + 成熟的 MoE 技术,可以实现超越更大稠密模型的效果。

而 DeepSeek 的核心在于算法创新。论文试图解决传统 MoE 中专家 " 学得太杂 " 和 " 重复学习 " 的问题,本质上是对 MoE 架构的重新设计。

数学公式可以更直观地反映区别。

Mixtral:

DeepSeek:

两者的采用了 GShard 风格的 Top-K router。但 DeepSeek 改变了传统 MoE 架构中的门控机制和专家结构。

在专家粒度和数量方面,Mixtral 沿用了标准的 MoE 设计,每个专家都是一个完整的 FFN 块。

DeepSeek 则提出了细粒度专家分割,在保持总参数量不变的情况下,将大专家切分成了许多个小专家。通过更细的切分,不同的专家可以更灵活地组合,从而实现更精准的知识习得。

在路由机制上,Mixtral 中所有专家地位平等,路由网络根据输入动态选择专家。

DeepSeek 引入了共享专家,共享专家不参与路由,总是被激活,而路由专家参与 Top-K 竞争。

这就使得 Mixtral 的知识分布是扁平的,通用知识和特定知识混杂在同一个专家内;而 DeepSeek 的知识分布是解耦的,共享专家负责通用知识,路由专家负责特定知识。

另外,有网友提到,Mixtral of Experts 这篇论文实际上完全没讲训练细节,只是提到 " 我们采用了 Google GShard 架构,采用了更简单的路由,并且每一层都使用了 MoE",至于数据、超参数、训练 token、消融实验……一概没提。

因崔斯汀的一点是,倒是 2025 年 12 月发布的 Mistral 3 Large,被发现直接沿用了 DeepSeek-V3 的架构。

网友:开始岁月史书了?

倒不是说 Mistral 对 MoE 的推广没有贡献,但诚如网友所言,不可否认的是,DeepSeek 最终在稀疏 MoE、MLA 等技术上获得了更大的影响力。

于是 Arthur Mensch 就显得有点 " 逆天 " 了:

Mistral 被发现用了 DeepSeek 的架构。现在他们试图通过岁月史书来挽回面子。

还有网友吐槽屠龙者终成恶龙,现在的 Mistral,已经不是曾经惊艳大模型开源圈的那个 Mistral 了。

Anyway,嘴炮无用,接下来,围绕基础模型的竞逐,已经预告了精彩继续。

DeepSeek 就被曝已经瞄准了春节档……

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 开源 创始人 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论