DeepSeek新王牌浮出水面？

一次代码更新，意外泄露了 AI 巨头的新野心。

1 月 21 日，DeepSeek 在其 GitHub 仓库的一次常规更新中，意外泄露了下一代模型的关键线索。开发者在核心推理优化库 FlashMLA 的代码里，发现了一个从未公开的模型架构标识—— "MODEL1"。而这一时间点，恰逢其标志性模型 R1 发布一周年。

根据对代码库的详细分析，"MODEL1" 的标识在总计 114 个文件中被提及了 28 至 31 次。更关键的是，它在代码逻辑中被置于与当前旗舰模型 DeepSeek-V3.2（代码中标识为 V32）完全独立的平行分支中，这表明它并非现有模型的简单迭代，而是一个全新的架构序列。FlashMLA 是 DeepSeek 自主研发、专门针对英伟达 Hopper 及 Blackwell 架构 GPU 进行深度优化的软件工具，旨在加速大模型推理生成环节。MODEL1 与 V3.2 一同被列为该库支持的两个主要模型架构，揭示了 DeepSeek 产品线的潜在扩展。

技术细节的差异进一步印证了 MODEL1 的独立性。代码显示，MODEL1 的 head_dim（头维度）参数被设定为 512 维，而 DeepSeek V3 系列模型曾采用 576 维的设计。在内存布局上，一条已被删除的代码注释曾指出，对于 SM90 架构下的 MODEL1，其 KV 缓存的内存步长必须是 576B 的整数倍，这与 V3.2 的 656B 配置不同，暗示了底层内存调度机制的改变。此外，代码中出现了针对英伟达最新 Blackwell B200（SM100 架构）的专用内核实现，其中 Head128 配置仅支持 MODEL1，而不支持 V3.2，这被解读为 DeepSeek 为适配新一代硬件专门优化了新架构。

社区对此展开了激烈讨论。一种观点认为，MODEL1 可能是一个追求极致效率的轻量级模型，更适合边缘设备部署。另一种分析则指向它可能是一个 " 长序列专家 "，专门为处理超长文档或代码项目而生。更深入的代码解读发现，MODEL1 支持动态稀疏推理和额外的缓存区，这些设计可能旨在提升复杂任务（如智能体应用）的调度能力。海外开发者推测，其背后可能是一套全新的推理机制和内存配置。

截至目前，DeepSeek 官方尚未对此发表任何评论。但这次 " 意外 " 发生的时间点极为微妙。此前已有消息称，DeepSeek 计划在 2026 年 2 月，即中国农历春节前后发布下一代旗舰模型。就在此次代码泄露前约两周，DeepSeek 还悄然在 arXiv 上更新了 R1 的论文，将页数从 22 页大幅扩充至 86 页，近乎重写，并加入了完整的训练管线拆解和大量技术附录，这一不寻常的举动已被部分观察者视为新动作的前奏。

业界普遍将 MODEL1 与传闻中的 DeepSeek V4 模型联系起来。综合预测，下一代模型的核心突破可能聚焦于代码生成与推理架构。据称，V4 可能采用名为 "mHC" 的新架构，旨在突破传统性能天花板，并专门为企业级编程任务设计，目标是在代码能力上超越当前的顶尖闭源模型。同时，它很可能延续 DeepSeek 的极致性价比策略，并深化与国产芯片的适配。

从公司背景来看，DeepSeek 的研发一直得到其母公司幻方量化的强力支持。这家顶级量化基金在 2025 年实现了超过 53% 的回报率，利润超 7 亿美元。雄厚的资金实力，让 DeepSeek 能在 " 零外部融资 " 的情况下保持高强度研发，不必急于商业化。这种独特的财务结构，为其技术路线的长期主义提供了坚实基础。就连微软 CEO 萨蒂亚 · 纳德拉也曾公开提及 DeepSeek，称其拥有 " 真正的创新 "，这从侧面印证了其技术影响力。

一次代码泄露，如同投石入水，涟漪已扩散至整个产业。全球最大的 AI 开源社区 Hugging Face 在近期文章中，将 DeepSeek 的开源策略称为 "DeepSeek 时刻 "，认为它深刻改变了全球 AI 开源生态的格局。如今，随着疑似下一代核心架构的线索浮出水面，所有人都在等待：DeepSeek 将如何再次定义前沿？

答案，或许就在不久后的春节揭晓。

来源：星河商业观察

宙世代

一起剪