驱动之家 04-27
DeepSeek首次基于华为芯片训练!美国当天就坐不住了:指控中国大模型“抄袭”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 4 月 27 日消息,上周五(24 日),DeepSeek 正式发布 V4 大模型预览版。这是全球首个主要针对华为昇腾 AI 处理器深度优化的前沿大模型,全程脱离 NVIDIA CUDA 体系。

而就在同一天,美国国务院已向全球各国大使馆发出外交电报,指示其工作人员警告外国政府,指控 DeepSeek 和其他中国人工智能公司 " 涉嫌窃取知识产权 "。

DeepSeek   V4 参数规模达 1.6 万亿,上下文窗口达 100 万 token,分为 Pro 与 Flash 两个版本。Pro 版输出定价每百万 token 24 元,Flash 版仅 2 元,远低于 GPT-5.4、Claude   Opus4.6 等海外闭源模型。官方表示,DeepSeek V4 Pro 性能比肩顶级闭源模型。

此次发布最大突破是彻底切换算力底座。DeepSeek 上一代 V3 依赖 2048 张 NVIDIA H800 训练,曾被调查涉嫌通过第三方采购受限芯片。V4 全程采用华为昇腾芯片训练,华为确认昇腾全系列超节点与最新 950 系列实现首日兼容。DeepSeek 透露,下半年昇腾 950 超节点批量上市后后,Pro 版价格有望进一步下调。

据知情人士透露,DeepSeek 发布 V4 之前,没有向美国芯片公司 NVIDIA 和 AMD 提供模型早期访问权限,而是率先让中国企业华为提前数周开展软件适配优化工作。"breaking from standard industry practice(打破行业惯例)。" 报道中如此形容这一事件。

毕竟,这是此前无论中国公司还是外国公司的大模型,都没有采用过的方式。早在去年 8 月,DeepSeek V3.1 就支持了 UE8M0   FP8   Scale 参数精度,并特别表示这一数据格式是针对即将发布的下一代国产芯片设计,为脱离 CUDA 生态埋下伏笔。

据悉,DeepSeekV4 发布当天,美国国务院向全球使馆发送外交电报。美方要求驻外人员提醒各国,提防 DeepSeek、月之暗面、MiniMax 等企业 " 窃取并蒸馏美国 AI 模型 "。白宫此前也发布备忘录,指责中方开展工业化规模模型蒸馏。OpenAI 与 Anthropic 早前均指控过 DeepSeek 涉嫌蒸馏其模型。

" 不诱于誉,不恐于诽,率道而行,端然正己。"DeepSeek 在官方新闻稿中表示。

" 感谢每一位用户的信任与支持,大家的肯定、建议和期许,是我们不竭探索、持续进步的动力,也让我们始终坚守初心,专注于不懈的创新。我们将始终秉持长期主义的原则理念,在尝试与思考中踏实前行,努力向实现 AGI 的目标不断靠近。"

NVIDIA CEO 黄仁勋曾公开警告,DeepSeek 若在华为芯片上完成首发,意味着 AI 模型有望在美国技术架构之外实现最优运行。如果这款模型针对华为架构完成专属优化,会直接让美国在全球 AI 竞争中落入劣势,这对美国是重大损失。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

美国 华为 芯片 nvidia
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论