布谷财经 04-13
DeepSeek V4全量发布已进入最后倒计时
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

4 月,据知情人士透露,DeepSeek 创始人梁文锋在内部沟通中首次明确,新一代旗舰大模型 DeepSeek V4 计划于 4 月下旬正式发布。

V4 的核心突破集中在算力、架构适配与功能升级三大方面。

算力适配突破:全链路 " 去 CUDA 化 " 的里程碑尝试。

消息显示,该模型在推理阶段将首次全面适配华为昇腾等国产 AI 芯片,成为国内首个在全链路算力上旨在彻底摆脱对英伟达 CUDA 生态依赖的万亿级大模型。

市场对 V4 发布的预期已经产生了实际影响。据报道,为迎接新模型的集成与部署,阿里巴巴、字节跳动、腾讯等国内科技巨头已提前预订了数十万片新一代 AI 算力芯片,计划通过各自的云服务平台提供基于 DeepSeek V4 的模型服务。

核心架构设计根据爆料,该模型总参数达到万亿级别,采用混合专家(MoE)稀疏激活架构,每次推理仅激活约 370 亿参数。行业分析指出,这种设计使推理速度较 V3 提升约 35 倍、能耗降低约 40%,推理成本仅为 GPT-4 的七十分之一。

同时,V4 支持约百万 Token 的无损上下文处理,较 V3 系列实现质的飞跃,可一次性处理数本书籍或超长代码库,大幅提升复杂场景处理能力。此外,V4 全面运行于国产 AI 芯片,底层代码完成生态迁移,适配相关框架,延续了 DeepSeek 的自主可控发展思路,且计划以 Apache 2.0 协议开源,支持企业自主部署与二次开发。

日前,4 月 8 日凌晨 DeepSeek 网页端及 APP 悄然上线分层模式。新增 " 专家模式 ",这是其首次引入产品端模式分层设计,外界认为这属于 V4 灰度测试的一部分。

快速模式:主打即时响应,适配日常对话与轻量场景,支持图片及文件文字识别。

专家模式:聚焦代码生成、数学推理等复杂任务,高峰时段需排队等待。

界面中还有 " 视觉 " 第三选项正在灰度测试,业内普遍认为这是 V4 原生多模态能力的预演,也是算力精细化调度的落地尝试。

而官方 API 仍以 2025 年 12 月更新的 V3.2 为主,但 V4 已进入全网灰度测试阶段,网页端 " 体验 DeepSeek V3.2" 的标识也已消失。

近期 DeepSeek 曾经历服务波动,成为 V4 上线前的小插曲。

其实早在 3 月底,其网页、App 及 API 接口连续三天出现异常,最长中断时长近 12 小时,创下成立以来单次服务中断纪录。目前所有服务已全面恢复,业内人士推测,此次故障或与 V4 上线前的压力测试有关,用于验证模型集群稳定性与成本边界。

一边筹备 V4 上线,一边 DeepSeek 内部也在经历重要调整。

自 2025 年秋天起,梁文锋开始更多提及 " 产品化和商业化 ",公司已组建数十人的产品团队,并开放产品、设计及行政等岗位招聘,适配团队规模扩大需求。随着同类企业上市后市值攀升,DeepSeek 此前未融资、无明确估值的模式正带来内部压力,员工手中未定价的期权价值成疑,梁文锋近期已着手考虑公司估值问题。此外,去年底至今,包括数位核心技术作者在内的多名核心成员先后离职。

业内普遍认为,V4 的正式发布有望延续这一优势,进一步巩固 DeepSeek 在全球大模型竞争中的领先地位。

来源:布谷财经

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai芯片 腾讯 英伟达 华为 字节跳动
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论