星河商业观察 01-21
DeepSeek新王牌浮出水面?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一次代码更新,意外泄露了 AI 巨头的新野心。

1 月 21 日,DeepSeek 在其 GitHub 仓库的一次常规更新中,意外泄露了下一代模型的关键线索。开发者在核心推理优化库 FlashMLA 的代码里,发现了一个从未公开的模型架构标识—— "MODEL1"。而这一时间点,恰逢其标志性模型 R1 发布一周年。

根据对代码库的详细分析,"MODEL1" 的标识在总计 114 个文件中被提及了 28 至 31 次。更关键的是,它在代码逻辑中被置于与当前旗舰模型 DeepSeek-V3.2(代码中标识为 V32)完全独立的平行分支中,这表明它并非现有模型的简单迭代,而是一个全新的架构序列。FlashMLA 是 DeepSeek 自主研发、专门针对英伟达 Hopper 及 Blackwell 架构 GPU 进行深度优化的软件工具,旨在加速大模型推理生成环节。MODEL1 与 V3.2 一同被列为该库支持的两个主要模型架构,揭示了 DeepSeek 产品线的潜在扩展。

技术细节的差异进一步印证了 MODEL1 的独立性。代码显示,MODEL1 的 head_dim(头维度)参数被设定为 512 维,而 DeepSeek V3 系列模型曾采用 576 维的设计。在内存布局上,一条已被删除的代码注释曾指出,对于 SM90 架构下的 MODEL1,其 KV 缓存的内存步长必须是 576B 的整数倍,这与 V3.2 的 656B 配置不同,暗示了底层内存调度机制的改变。此外,代码中出现了针对英伟达最新 Blackwell B200(SM100 架构)的专用内核实现,其中 Head128 配置仅支持 MODEL1,而不支持 V3.2,这被解读为 DeepSeek 为适配新一代硬件专门优化了新架构。

社区对此展开了激烈讨论。一种观点认为,MODEL1 可能是一个追求极致效率的轻量级模型,更适合边缘设备部署。另一种分析则指向它可能是一个 " 长序列专家 ",专门为处理超长文档或代码项目而生。更深入的代码解读发现,MODEL1 支持动态稀疏推理和额外的缓存区,这些设计可能旨在提升复杂任务(如智能体应用)的调度能力。海外开发者推测,其背后可能是一套全新的推理机制和内存配置。

截至目前,DeepSeek 官方尚未对此发表任何评论。但这次 " 意外 " 发生的时间点极为微妙。此前已有消息称,DeepSeek 计划在 2026 年 2 月,即中国农历春节前后发布下一代旗舰模型。就在此次代码泄露前约两周,DeepSeek 还悄然在 arXiv 上更新了 R1 的论文,将页数从 22 页大幅扩充至 86 页,近乎重写,并加入了完整的训练管线拆解和大量技术附录,这一不寻常的举动已被部分观察者视为新动作的前奏。

业界普遍将 MODEL1 与传闻中的 DeepSeek V4 模型联系起来。综合预测,下一代模型的核心突破可能聚焦于代码生成与推理架构。据称,V4 可能采用名为 "mHC" 的新架构,旨在突破传统性能天花板,并专门为企业级编程任务设计,目标是在代码能力上超越当前的顶尖闭源模型。同时,它很可能延续 DeepSeek 的极致性价比策略,并深化与国产芯片的适配。

从公司背景来看,DeepSeek 的研发一直得到其母公司幻方量化的强力支持。这家顶级量化基金在 2025 年实现了超过 53% 的回报率,利润超 7 亿美元。雄厚的资金实力,让 DeepSeek 能在 " 零外部融资 " 的情况下保持高强度研发,不必急于商业化。这种独特的财务结构,为其技术路线的长期主义提供了坚实基础。就连微软 CEO 萨蒂亚 · 纳德拉也曾公开提及 DeepSeek,称其拥有 " 真正的创新 ",这从侧面印证了其技术影响力。

一次代码泄露,如同投石入水,涟漪已扩散至整个产业。全球最大的 AI 开源社区 Hugging Face 在近期文章中,将 DeepSeek 的开源策略称为 "DeepSeek 时刻 ",认为它深刻改变了全球 AI 开源生态的格局。如今,随着疑似下一代核心架构的线索浮出水面,所有人都在等待:DeepSeek 将如何再次定义前沿?

答案,或许就在不久后的春节揭晓。

来源:星河商业观察

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论