《科创板日报》3 月 25 日讯(编辑 宋子乔) 3 月 24 日晚间,DeepSeek 上线了小版本更新后的 DeepSeek-V3 模型。新模型的版本号为 DeepSeek-V3-0324,模型参数为 6850 亿,较初代 V3 版本的 6710 亿有小幅增长。DeepSeek 尚未放出新版模型的系统卡。
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
值得注意的是,DeepSeek 将开源秉持到底,这次将 DeepSeek-V3 模型的开源协议更新为与 DeepSeek-R1 一致的 MIT 协议,这一协议更为宽松,允许模型蒸馏、商用等行为,给了开发者更多的自主权。
在性能上,编程能力的优化成了最大亮点,新版本 DeepSeek-V3 生成前端代码的能力大大提升。
网友让模型设计的天气页面(左由新版 DeepSeek-V3 生成;右由初代 DeepSeek-V3 生成)
网友用 V3 新版本设计的个人网站页面
网友用 V3 新版本写的小游戏
网友用 V3 新版本写的文字卡片
据多个博主的测试,新版 DeepSeek-V3 在网站开发能力、UI 设计方面表现优秀,只需要简单的文本提示就能快速开发各种网站、App,审美比肩目前全球最强的闭源代码模型 Claude 3.7 Sonnet 思维链版本。
由新版 DeepSeek-V3 生成
由 Claude 3.7 Sonnet 生成
图 1 DeepSeek V3 生成
图 2 DeepSeek V3 0324 生成
图 3 Claude Sonnet 3.7 生成
《科创板日报》曾报道过初代 DeepSeek-V3,该模型甫一上线便以性价比 " 闻名 "。在多项基准测试中,DeepSeek-V3 的成绩超越了 Qwen2.5-72 B 和 Llama-3.1-405 B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
幻方量化在已开源的论文中强调其训练成本极低——通过对算法、框架和硬件的优化协同设计,假设 H800GPU 的租用价格为每块 GPU2 美元 / 小时,DeepSeek-V3 的全部训练成本总计仅为 557.6 万美元(注:该成本仅包括 DeepSeek-V3 的正式训练,不包括与先前在架构、算法或数据上的研究和消融实验相关的成本)。
DeepSeek-V3 的 API 服务定价将上调为每百万输入 tokens 0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens 8 元,按缓存未命中的输入价格计,加总成本是 10 元人民币。
同类型模型中,OpenAI 的 GPT 4o 定价相当高,输入:5 美元 / 百万 Token,输出:15 美元 / 百万 Token,加总成本是 20 美元,约合人民币 140 元。
登录后才可以发布评论哦
打开小程序可以发布评论哦