三易生活 前天
DeepSeek新模型或即将发布,编程能力超越GPT
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前有消息源透露,DeepSeek 或将在 2 月中旬,也就是 2026 年春节前后发布新一代模型 DeepSeek V4。但相关消息源表示,这一发布时间仍有可能发生变动。

据称,DeepSeek V4 在处理超长编码提示方面实现了突破,内部测试表明,DeepSeek V4 编程任务的表现超过了目前市场上的主流竞品,其中包括 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。

据相关消息源透露,DeepSeek V4 在训练机制上也取得了突破,并表示 " 该模型在整个训练过程中理解数据模式的能力也有所改进,且性能未出现衰减 "。

但截至目前,DeepSeek 方面尚未对此进行回应。

此前在 2025 年 12 月,DeepSeek 方面正式发布 DeepSeek V3.2 系列,包括 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。其中,DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适用于问答、通用 Agent 任务等日常使用场景等。据 DeepSeek 公布的相关信息中显示,在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro。

而 DeepSeek-V3.2-Speciale 则是 DeepSeek-V3.2 的长思考增强版,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro,并成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。

此外值得一提的,2025 年年底 DeepSeek 方面还发布了一篇新论文,提出一种名为 mHC(流形约束超连接)的新架构,旨在解决传统超连接架构(Hyper-Connections)在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。相关论文中的数据显示,在 3B、9B 乃至 18B 参数规模的模型测试中,应用 mHC 架构的模型在 BIG-BenchHard 推理基准上提升 2.1%。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

编程 数学 春节 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论